Недостаточная спецификация: почему современные модели AI часто дают сбой в реальности

Yannic Kilcher 19,3 тыс. 59 мин 3 мин 10.11.2020
Главное

Недостаточная спецификация: почему современные модели машинного обучения часто дают сбой в реальности 0:00

Исследователи из Google, MIT и других институтов представили работу, в которой выделили «недостаточную спецификацию» (underspecification) как критическую причину нестабильности современных моделей машинного обучения. Суть проблемы заключается в том, что модели, которые показывают идентично высокие результаты на тестовых выборках в лабораторных условиях, могут вести себя совершенно по-разному при реальном развертывании. Янник Килхер (Yannic Kilcher) в своем обзоре отмечает, что хотя авторы статьи убедительно демонстрируют само явление, предложенные ими пути решения остаются теоретическими и требуют дальнейшей практической проверки.

Что такое недостаточная спецификация? 2:35

Авторы статьи определяют «недостаточную спецификацию» как состояние конвейера машинного обучения, при котором процедура обучения может выдавать множество различных предикторов (вариантов модели), обладающих одинаково сильными показателями на контрольной выборке.

Эпидемиологический кейс: математика и непредсказуемость 12:43

В качестве примера авторы используют простую эпидемиологическую модель, где инфекция распространяется в популяции в зависимости от скорости передачи (параметр $\beta$) и длительности заразности (параметр $d$).

  1. Проблема неопределенности: На ранних стадиях эпидемии, когда количество зараженных мало, данные не позволяют однозначно определить параметры системы.
  2. Дисперсия моделей: Янник Килхер отмечает, что даже при тех же входных данных, выбор метода инициализации (например, гамма-распределение против нормального) приводит к радикально разным прогнозам траектории пандемии.
  3. Критика: Ведущий подчеркивает, что этот пример является очень наглядным, однако он лишь подтверждает существование проблемы, но не дает готового алгоритма её устранения без накопления данных из реального мира, что в условиях пандемии часто невозможно.

NLP и гендерные стереотипы 37:01

Особое внимание в статье уделяется моделям BERT и их поведению при анализе гендерных ассоциаций в языке.

Выводы и рекомендации 56:59

Авторы работы приходят к выводу, что разработчикам необходимо проводить более тщательные «стресс-тесты» своих моделей на специфических для приложения осях (например, на устойчивость к конкретным искажениям изображений или на отсутствие стереотипов).

Янник Килхер заключает, что, хотя с выводами статьи трудно не согласиться, авторы не продемонстрировали, что добавление подобных спецификаций в процесс обучения действительно возможно без потери общей точности модели. Практическим решением, по его мнению, могло бы стать предоставление разработчикам не одного «чекпоинта» модели, а набора из множества предобученных вариантов, чтобы пользователи могли выбрать ту модель, которая лучше соответствует их специфическим требованиям.

💬 Цитаты

«То, что модель работает хорошо на тестовой выборке, не гарантирует, что она будет работать в реальном мире.»

Янник Килхер 2:22

«Если вы развертываете ML в реальном мире, очень уместно заботиться о подобных проблемах.»

Янник Килхер 10:57
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Underspecification
Состояние системы обучения, при котором возможны разные конфигурации модели с одинаково хорошим результатом на тестах.
Local minima
Точки в процессе обучения нейросети, где ошибка достигает относительного минимума, но не является глобально оптимальной.
Random seed
Начальное число, определяющее случайные процессы в алгоритме обучения (например, инициализацию весов).
BERT
Популярная языковая модель от Google, используемая для NLP-задач.
Domain shift
Различие между данными, на которых модель обучалась, и данными, на которых она применяется.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Yannic Kilcher Google Machine Learning BERT underspecification