Исследование ImageNet v2: почему нейросети ошибаются на новых данных

Yannic Kilcher 33,6 тыс. 25 мин 4 мин 27.04.2020
Главное

В течение последнего десятилетия ImageNet служил главным мерилом успеха в области компьютерного зрения, а ежегодное снижение частоты ошибок на этом датасете стало символом триумфа глубокого обучения. Однако исследователи Бенджамин Рехт, Ребекка Ролофс, Людвиг Шмидт и Вайшал Шанкар задались критическим вопросом: отражают ли эти цифры реальный прогресс в обобщении знаний или нейросети просто «зазубрили» конкретный тестовый набор данных?

📉 Испытание на прочность: создание ImageNet v2 0:00

На протяжении почти 10 лет сообщество ИИ обучало модели на ImageNet — гигантском архиве из 1,5 миллионов изображений, распределенных по 1000 классов. Янник Кильчер отмечает, что с 2012 года, когда AlexNet совершил революцию, показатели ошибок практически сокращались вдвое ежегодно. Но такая фиксация на одном и том же тестовом наборе порождает подозрения в «мета-переобучении» — ситуации, когда инженеры подбирают гиперпараметры и архитектуры специально под конкретные данные, теряя способность к работе с новыми примерами.

Чтобы проверить эту гипотезу, авторы исследования создали новый тестовый набор, названный ImageNet v2. Процесс сбора данных был выстроен максимально идентично оригинальному протоколу ImageNet:

Аналогичный эксперимент был проведен и для более простого датасета CIFAR-10.

🧪 Гипотеза против реальности 2:38

Основная гипотеза исследователей заключалась в том, что по мере улучшения результатов на оригинальном ImageNet (v1), разрыв с новым набором (v2) будет расти. Кильчер поясняет: если бы имело место классическое переобучение, графики точности моделей на v2 со временем начали бы отклоняться вниз или выходить на плато, пока точность на v1 продолжает расти.

Однако реальность оказалась иной:

  1. Линейная зависимость: результаты всех моделей на обоих датасетах ложатся на одну прямую.
  2. Сохранение рангов: лучшая модель на v1 остается лучшей и на v2. По словам Кильчера, порядок моделей практически неизменен.
  3. Падение точности: абсолютно все модели показывают результат на v2 значительно хуже (на 10–15% ниже), чем на v1.

Самым удивительным открытием стало то, что более точные модели испытывают меньший относительный спад при переходе на v2. Это противоречит идее переобучения: получается, что чем лучше нейросеть справляется с основным тестом, тем лучше она обобщает знания на новые данные.

🧩 В поисках причин: три типа разрывов в точности 9:13

Авторы предложили аналитическую модель, объясняющую разницу в результатах через три компонента:

  1. Generalization gap (Разрыв обобщения): разница между обучающей и тестовой выборкой из одного распределения. Исследователи исключили это как главную причину, так как доверительные интервалы (95%) дают разброс лишь в ±1%.
  2. Adaptivity gap (Адаптивный разрыв): то самое переобучение под тестовый сет из-за многократных попыток. Эта версия также была отвергнута из-за линейного характера графиков.
  3. Distribution gap (Разрыв распределения): различия в самих данных между старым и новым набором. Именно здесь, по мнению авторов, кроется разгадка.

🤖 Роль человеческого фактора и Mechanical Turk 12:14

Ключевой переменной оказалась «частота выбора» (selection frequency). Когда человеку на Mechanical Turk показывают сетку изображений и просят выбрать «терьеров», некоторые картинки выбирают все (частота 1.0), а некоторые — лишь часть людей.

Янник Кильчер объясняет, как это влияет на сложность датасета:

По мнению ведущего, даже при строгом соблюдении протокола 10-летней давности, современные условия сбора (другой контингент на Mechanical Turk, изменения в самом Flickr) создают «сдвиг распределения», который делает новые данные объективно более сложными для классификации.

🧮 Математическая модель сложности 20:09

Для объяснения феномена авторы ввели формальную модель, где каждое изображение имеет параметр сложности ($\tau$), а каждая модель — уровень навыка. Вероятность правильного ответа описывается как функция от разности навыка и сложности.

При использовании пробит-шкалирования (Probit scaling) выяснилось, что связь между точностью на v1 и v2 описывается строго линейной функцией. Это подтверждает, что разница вызвана не плохой архитектурой нейросетей, а фундаментальными свойствами данных.


💡 Рекомендации для будущего 23:33

Янник Кильчер с иронией отмечает предложение авторов использовать «Super Holdout» — секретный набор данных, который создается в начале карьеры и извлекается только в самом конце для финальной проверки модели.

В качестве дополнительного доказательства авторы провели эксперимент: они добавили часть данных из v2 в обучающую выборку. Несмотря на это, точность на оставшейся части v2 выросла лишь на мизерную величину, что подтверждает устойчивость выявленного «разрыва распределения».

💬 Цитаты

«Если модель была номером один в мире на v1, она останется номером один и на v2.»

Янник Кильчер 06:20

«Это кажется свойством данных, а не свойством нейронных сетей.»

Янник Кильчер 08:21
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
ImageNet
Крупнейшая база данных изображений, используемая для обучения и тестирования систем компьютерного зрения.
Переобучение (Overfitting)
Ошибка в обучении модели, когда она слишком хорошо подстраивается под конкретные примеры и теряет способность работать с новыми данными.
Probit scaling
Метод статистического анализа, использующий функцию распределения нормального распределения для моделирования бинарных ответов.
📊 Цифры
🗓 Хронология
  1. 2012 Запуск AlexNet и начало эпохи глубокого обучения на ImageNet.
  2. 2019 Публикация исследования Бенджамина Рехта и коллег о ImageNet v2.
⚖️ Другая сторона
Искусственный интеллект ImageNet Янник Кильчер Mechanical Turk overfitting