Недостаточная спецификация: почему современные модели AI часто дают сбой в реальности

Недостаточная спецификация: почему современные модели машинного обучения часто дают сбой в реальности 0:00

Исследователи из Google, MIT и других институтов представили работу, в которой выделили «недостаточную спецификацию» (underspecification) как критическую причину нестабильности современных моделей машинного обучения. Суть проблемы заключается в том, что модели, которые показывают идентично высокие результаты на тестовых выборках в лабораторных условиях, могут вести себя совершенно по-разному при реальном развертывании. Янник Килхер (Yannic Kilcher) в своем обзоре отмечает, что хотя авторы статьи убедительно демонстрируют само явление, предложенные ими пути решения остаются теоретическими и требуют дальнейшей практической проверки.

Что такое недостаточная спецификация? 2:35

Авторы статьи определяют «недостаточную спецификацию» как состояние конвейера машинного обучения, при котором процедура обучения может выдавать множество различных предикторов (вариантов модели), обладающих одинаково сильными показателями на контрольной выборке.

Причина: Глубокие нейронные сети обладают огромным пространством локальных минимумов. Даже при одинаковой архитектуре и данных, выбор случайного начального веса (random seed) приводит к получению моделей, которые на тестовом наборе данных работают одинаково хорошо, но демонстрируют разную устойчивость в реальных сценариях.
Отличие от сдвига домена: В отличие от классического «сдвига домена» (domain shift), где модель обучается на одном распределении, а работает на другом, здесь проблема в том, что в рамках одного процесса обучения мы получаем набор моделей, часть из которых будет работать в реальности хорошо, а часть — нет. На текущем этапе разработки невозможно понять по стандартному тестовому набору, какая именно модель окажется «удачной» в реальной эксплуатации.

Эпидемиологический кейс: математика и непредсказуемость 12:43

В качестве примера авторы используют простую эпидемиологическую модель, где инфекция распространяется в популяции в зависимости от скорости передачи (параметр $\beta$) и длительности заразности (параметр $d$).

Проблема неопределенности: На ранних стадиях эпидемии, когда количество зараженных мало, данные не позволяют однозначно определить параметры системы.
Дисперсия моделей: Янник Килхер отмечает, что даже при тех же входных данных, выбор метода инициализации (например, гамма-распределение против нормального) приводит к радикально разным прогнозам траектории пандемии.
Критика: Ведущий подчеркивает, что этот пример является очень наглядным, однако он лишь подтверждает существование проблемы, но не дает готового алгоритма её устранения без накопления данных из реального мира, что в условиях пандемии часто невозможно.

NLP и гендерные стереотипы 37:01

Особое внимание в статье уделяется моделям BERT и их поведению при анализе гендерных ассоциаций в языке.

Методология: Исследователи сравнивали, как модель оценивает близость предложений, где профессия (например, «врач») заменяется на местоимения, указывающие на мужской или женский пол.
Случайный фактор: Килхер отмечает интересный факт: даже случайный выбор весов на этапе предварительного обучения (pre-training) оказывает значительное влияние на то, насколько модель будет подвержена гендерным стереотипам при последующей настройке.
Результаты: Статистический анализ показал, что не существует сильной корреляции между точностью выполнения основной задачи (например, разрешения местоимений) и уровнем «гендерной предвзятости» модели. Это подтверждает, что при текущем подходе к обучению такие «побочные эффекты» являются следствием случайного выбора модели из пространства доступных решений, а не осознанным обучением.

Выводы и рекомендации 56:59

Авторы работы приходят к выводу, что разработчикам необходимо проводить более тщательные «стресс-тесты» своих моделей на специфических для приложения осях (например, на устойчивость к конкретным искажениям изображений или на отсутствие стереотипов).

Янник Килхер заключает, что, хотя с выводами статьи трудно не согласиться, авторы не продемонстрировали, что добавление подобных спецификаций в процесс обучения действительно возможно без потери общей точности модели. Практическим решением, по его мнению, могло бы стать предоставление разработчикам не одного «чекпоинта» модели, а набора из множества предобученных вариантов, чтобы пользователи могли выбрать ту модель, которая лучше соответствует их специфическим требованиям.