# Недостаточная спецификация: почему современные модели AI часто дают сбой в реальности

Источник: https://www.youtube.com/watch?v=gch94ttuy5s
Канал: Yannic Kilcher
Опубликовано: 10.11.2020

---

## Недостаточная спецификация: почему современные модели машинного обучения часто дают сбой в реальности
[[JUMP:0:00]]

Исследователи из Google, MIT и других институтов представили работу, в которой выделили «недостаточную спецификацию» (underspecification) как критическую причину нестабильности современных моделей машинного обучения. Суть проблемы заключается в том, что модели, которые показывают идентично высокие результаты на тестовых выборках в лабораторных условиях, могут вести себя совершенно по-разному при реальном развертывании. Янник Килхер (Yannic Kilcher) в своем обзоре отмечает, что хотя авторы статьи убедительно демонстрируют само явление, предложенные ими пути решения остаются теоретическими и требуют дальнейшей практической проверки.

### Что такое недостаточная спецификация?
[[JUMP:2:35]]

Авторы статьи определяют «недостаточную спецификацию» как состояние конвейера машинного обучения, при котором процедура обучения может выдавать множество различных предикторов (вариантов модели), обладающих одинаково сильными показателями на контрольной выборке.

*   **Причина:** Глубокие нейронные сети обладают огромным пространством локальных минимумов. Даже при одинаковой архитектуре и данных, выбор случайного начального веса (random seed) приводит к получению моделей, которые на тестовом наборе данных работают одинаково хорошо, но демонстрируют разную устойчивость в реальных сценариях.
*   **Отличие от сдвига домена:** В отличие от классического «сдвига домена» (domain shift), где модель обучается на одном распределении, а работает на другом, здесь проблема в том, что в рамках одного процесса обучения мы получаем набор моделей, часть из которых будет работать в реальности хорошо, а часть — нет. На текущем этапе разработки невозможно понять по стандартному тестовому набору, какая именно модель окажется «удачной» в реальной эксплуатации.

### Эпидемиологический кейс: математика и непредсказуемость
[[JUMP:12:43]]

В качестве примера авторы используют простую эпидемиологическую модель, где инфекция распространяется в популяции в зависимости от скорости передачи (параметр $\beta$) и длительности заразности (параметр $d$).

1.  **Проблема неопределенности:** На ранних стадиях эпидемии, когда количество зараженных мало, данные не позволяют однозначно определить параметры системы.
2.  **Дисперсия моделей:** Янник Килхер отмечает, что даже при тех же входных данных, выбор метода инициализации (например, гамма-распределение против нормального) приводит к радикально разным прогнозам траектории пандемии.
3.  **Критика:** Ведущий подчеркивает, что этот пример является очень наглядным, однако он лишь подтверждает существование проблемы, но не дает готового алгоритма её устранения без накопления данных из реального мира, что в условиях пандемии часто невозможно.

### NLP и гендерные стереотипы
[[JUMP:37:01]]

Особое внимание в статье уделяется моделям BERT и их поведению при анализе гендерных ассоциаций в языке.

*   **Методология:** Исследователи сравнивали, как модель оценивает близость предложений, где профессия (например, «врач») заменяется на местоимения, указывающие на мужской или женский пол.
*   **Случайный фактор:** Килхер отмечает интересный факт: даже случайный выбор весов на этапе **предварительного обучения** (pre-training) оказывает значительное влияние на то, насколько модель будет подвержена гендерным стереотипам при последующей настройке.
*   **Результаты:** Статистический анализ показал, что не существует сильной корреляции между точностью выполнения основной задачи (например, разрешения местоимений) и уровнем «гендерной предвзятости» модели. Это подтверждает, что при текущем подходе к обучению такие «побочные эффекты» являются следствием случайного выбора модели из пространства доступных решений, а не осознанным обучением.

### Выводы и рекомендации
[[JUMP:56:59]]

Авторы работы приходят к выводу, что разработчикам необходимо проводить более тщательные «стресс-тесты» своих моделей на специфических для приложения осях (например, на устойчивость к конкретным искажениям изображений или на отсутствие стереотипов).

Янник Килхер заключает, что, хотя с выводами статьи трудно не согласиться, авторы не продемонстрировали, что добавление подобных спецификаций в процесс обучения действительно возможно без потери общей точности модели. Практическим решением, по его мнению, могло бы стать предоставление разработчикам не одного «чекпоинта» модели, а набора из множества предобученных вариантов, чтобы пользователи могли выбрать ту модель, которая лучше соответствует их специфическим требованиям.