Как ошибка в медиане влияет на оценку ИИ

Современные методы глубокого обучения с подкреплением (RL) столкнулись со скрытым кризисом воспроизводимости, вызванным некорректными статистическими методами оценки алгоритмов. В интервью для подкаста The TWIML AI Podcast исследователь Ришабх Агарвал (Rishabh Agarwal) подробно разбирает свою научную работу, получившую престижную награду на конференции NeurIPS 2021. Он объясняет, почему традиционное использование нескольких случайных начальных чисел (сидов) искажает реальные достижения в области искусственного интеллекта, и предлагает новые инструменты для проведения надежных экспериментов.

🎮 От Скраббла до Google Brain: Путь Ришабха Агарвала в реинфорсмент-лёрнинг 0:01

Интерес к обучению с подкреплением у Ришабха Агарвала зародился еще во время обучения в бакалавриате, когда компания DeepMind опубликовала свои прорывные результаты тестирования ИИ на играх Atari. Молодого исследователя увлекла идея создания агентов, способных самостоятельно осваивать сложные среды без жестко запрограммированных правил. Это объединило два его главных увлечения — видеоигры и автоматизацию, что и определило его дальнейшую академическую карьеру.

В качестве темы для бакалаврской диссертации Агарвал выбрал разработку ИИ для игры в Скраббл (Scrabble). На тот момент лучшая система, созданная в Массачусетском технологическом институте (MIT), опиралась на эвристики и поиск по дереву Монте-Карло (MCTS). По словам исследователя, его команда хотела заменить эти жесткие правила обучаемым агентом, собирая данные через партии самообучения (self-play), фактически пытаясь повторить успех AlphaGo в контексте Скраббла. Из-за жесткого дефицита вычислительных мощностей им пришлось прибегнуть к обучению подражанием (imitation learning), однако именно этот проект стал для Агарвала входной точкой в RL.

После окончания учебы Агарвал подал заявки на стажировки в несколько крупных технологических компаний и попал в исследовательскую группу Джеффри Хинтона (Geoffrey Hinton) в Торонто. При приеме на работу Хинтон высказал крайне важную, по мнению гостя, мысль:

«Я видел много кандидатов с кучей опубликованных статей. Твой случай интересен тем, что ты провел много исследований и потерпел неудачу, а значит, знаешь, каково это. В науке важно сталкиваться с неудачами как можно раньше, иначе возникнет иллюзия, что это легкий процесс, где достаточно просто совершить несколько действий и выпустить публикацию».

Опыт работы в команде Google Brain в Торонто в течение года укрепил стремление Агарвала заниматься исключительно реинфорсмент-лёрнингом. Позже он переехал в Монреаль, где продолжил исследования, признаваясь, что даже при попытках переключиться на другие сферы ИИ, невероятный потенциал RL неизменно заставлял его возвращаться обратно.

До того как окончательно сфокусироваться на обучении с подкреплением, Ришабх Агарвал успел поработать над двумя другими перспективными направлениями ИИ:

Разрешение смысловой неоднозначности слов (Word Sense Disambiguation): В 2016 году эта задача еще не была решена большими языковыми моделями. Исследование было посвящено созданию динамических вероятностных эмбеддингов, которые меняли свое значение в зависимости от контекста последующих предложений, например, при определении слова «банк» (речной берег или финансовая организация).
Мета-обучение (Meta-Learning): Разработка алгоритмов быстрого обобщения данных по нескольким примерам (one-shot или few-shot learning). Целью было научить модель мгновенно классифицировать новые, не встречавшиеся в обучающей выборке породы собак или кошек на основе всего одного-двух изображений.

Ключевым преимуществом RL перед обучением с учителем (supervised learning), по мнению Агарвала, является способность агента учиться на собственных ошибках, а не на статичном наборе данных. Этот процесс максимально близок к человеческому поведению: сталкиваясь с незнакомой задачей, человек предпринимает попытки, собирает информацию и самостоятельно ищет решение.

🧠 Смена парадигмы: Почему обучение с нуля больше не работает 5:10

Долгое время Ришабх Агарвал концентрировался на автономном обучении с подкреплением (offline RL). Однако в последнее время его внимание сместилось к более фундаментальной проблеме: в академической среде принято обучать агента под конкретную задачу, фиксировать результат, а затем создавать новую модель полностью с нуля. По мнению исследователя, реальные прикладные системы устроены иначе: они существуют годами, и инженеры практически никогда не выбрасывают накопленный опыт предыдущих версий программного обеспечения.

В качестве примера Агарвал приводит рекомендательную систему YouTube. При внедрении нового, более совершенного алгоритма компания не станет стирать старую модель и обучать систему заново; разработчики всегда надстраивают новые компоненты поверх уже функционирующей политики. По мнению гостя, исследовательское сообщество должно отказаться от концепции tabula rasa (обучения с чистого листа) и перейти к протоколам непрерывного накопления знаний в бенчмарках.

В рамках этой концепции Агарвал выделяет несколько ключевых сценариев и примеров:

Агенты в Minecraft: Вместо того чтобы каждый раз обучать модель базовым действиям, целесообразно взять существующего агента, умеющего строить простые дома, и расширить его возможности для возведения сложнейших структур.
Проект OpenAI Dota 2: Команда OpenAI потратила 10 месяцев непрерывного обучения, чтобы их ИИ смог победить сильнейших киберспортсменов мира. В их научной работе содержался график, доказывающий, что если бы они запускали обучение заново, им потребовалось бы более 40 месяцев колоссальных вычислительных затрат. Из-за постоянных обновлений игры и изменений пространства признаков инженеры OpenAI были вынуждены непрерывно достраивать существующую модель, сохраняя прошлый опыт.

Агарвал соглашается с ведущим подкаста, что данная область невероятно обширна и включает в себя элементы трансферного обучения (transfer learning), иерархических подходов и методов канонической инициализации весов. Направление трансфера зависит от того, что именно передается новой модели: стратегия (policy), функция ценности (value function), модель среды или метод исследования пространства (exploration strategy).

В настоящее время исследовательская группа Агарвала работает над строгой формулировкой этой задачи. По его словам, цель состоит в том, чтобы агент мог использовать данные неоптимальной, но достаточно хорошей «учительской» политики для быстрого восстановления базового уровня эффективности, а затем продолжал развиваться автономно. Агарвал использует аналогию с инструктором по плаванию:

«Инструктор учит вас плавать, но если вы в итоге становитесь олимпийским золотым медалистом, это происходит потому, что вы развивались самостоятельно, а не слепо полагались на тренера всю жизнь. Точно так же и ИИ-агент должен в определенный момент "отпустить" своего учителя, чтобы превзойти его результаты».

📉 Кризис трех сидов: Как ИИ-исследователи зашли в тупик 11:18

История создания знаменитой статьи «Deep Reinforcement Learning at the Edge of the Statistical Precipice» началась с побочного эксперимента. Ришабх Агарвал работал с популярным бенчмарком Atari 100K, в котором нейросети предоставляется всего 100 тысяч кадров взаимодействия со средой (около 2–3 часов игры, что эквивалентно времени, выделяемому профессиональному человеку на ознакомление с игрой). Этот тест предназначен для оценки эффективности использования выборки (sample efficiency).

Запустив своего агента, Агарвал столкнулся с колоссальным разбросом результатов. Чтобы сгладить флуктуации, он увеличил количество случайных начальных чисел (сидов) в два раза, затем еще в два, пока не дошел до 30 сидов. Однако огромная вариативность никуда не исчезла. Изучив существующую литературу, исследователь обнаружил, что абсолютно все авторы использовали всего 3 случайных сида для сравнения своих моделей и на этом основании заявляли о достижении нового статуса лучшего решения (state-of-the-art или SOTA).

Дальнейший анализ выявил критические проблемы методологии научных публикаций:

Зависимость от случайности: В тестах Агарвала одни сиды приводили к полному провалу агента, а другие на той же модели с легкостью затыкали за пояс текущий SOTA.
Иллюзия превосходства: Стало очевидно, что без масштабного тестирования невозможно утверждать, являются ли опубликованные результаты реальным прорывом или же авторы просто случайно наткнулись на удачные конфигурации.
Аномальный рост показателей: При увеличении числа сидов с 3 до 30 усредненные результаты Агарвала почему-то стабильно ползли вверх, хотя сама архитектура алгоритма не менялась.

Причина этого феномена крылась в фундаментальной статистической ошибке, укоренившейся в машинном обучении. Для агрегации результатов на платформе Atari традиционно применяется медианная оценка по всем задачам. Как объясняет Агарвал, медиана математических ожиданий (средних значений) не равна математическому ожиданию медиан. Оценка алгоритма по малому количеству сидов является смещенной оценкой (biased estimator).

Поразительно, но величина этого статистического смещения (bias) в экспериментах доходила до 30% от всей эффективности алгоритма. Для некоторых моделей Агарвала смещение было отрицательным (показатели росли с увеличением числа сидов), а для других — положительным (добавление сидов ухудшало итоговую оценку). По словам гостя, это делало прямое сравнение алгоритмов в статьях бессмысленным: разница между тремя сидами и двадцатью сидами зачастую превышала весь заявляемый авторами отрыв новой модели от базовой.

Используя вычислительные ресурсы Google, Агарвал перепроверил open-source коды недавних топ-работ конференций ICML 2021 и NeurIPS 2021 на 100 сидах. Оказалось, что графики эффективности почти всех алгоритмов пересекаются, а заявляемое превосходство исчезает в облаке статистических флуктуаций. Большинство методов существенно завышали свои реальные возможности.

Однако Ришабх Агарвал подчеркивает, что запуск 100 сидов вычислительно недоступен для исследователей вне таких гигантов, как Google. Например, стандартное тестирование на бенчмарке Atari 57 требует около 1000 GPU-часов всего для 5 сидов при стандартных 200 миллионах кадров. Обучение занимает 3–4 дня при полной параллелизации. Требования рецензентов научных журналов «докинуть еще 5 сидов» вызывают у авторов ступор из-за колоссальной дороговизны вычислений.

По словам Агарвала, это вынужденная мера, а не халатность. Исторический график в его статье наглядно иллюстрирует этот тренд:

1980-е годы: Исследователи использовали около 30 сидов, так как задачи были простейшими (например, симуляция Mountain Car).
Появление Atari и современных бенчмарков: Сложность сред выросла по экспоненте, из-за чего количество сидов вынужденно сократилось до 3–5 штук.
Будущее (Starcraft и далее): Оценка даже одного сида становится экстремально тяжелой задачей, что способно усугубить кризис методологии.

📊 Performance Profiles и новые метрики: Как вернуть науку в RL 22:59

Чтобы решить проблему ложных выводов без раздувания бюджетов на вычисления, Ришабх Агарвал предложил заимствовать инструмент из классического оценивания оптимизационного ПО — профили эффективности (Performance Profiles). Метод заключается в построении графиков эмпирической функции распределения (CDF) всех оценок по всем задачам и сидам одновременно.

Поскольку в Atari диапазоны очков в играх кардинально различаются (в Pong счет идет до 21, а в Pinball — до миллионов), перед агрегацией применяется нормализация относительно результатов человека (human-normalized scores). Профили эффективности обладают рядом преимуществ перед стандартными таблицами:

Полная картина распределения: Площадь под кривой профиля строго равна среднему значению алгоритма по всем играм.
Любые перцентили как на ладони: Проведя горизонтальную линию на уровне y = 0.5, исследователь мгновенно получает точную медиану, а также любой другой квантиль в точке пересечения с кривой.
Компактность и прозрачность: Один понятный график заменяет громоздкие таблицы на 57 строк в приложениях (appendix), где из-за экономии места авторы почти никогда не публикуют дисперсию и стандартное отклонение.

🎲 Проклятие GPU-рандомизации и бутстрэп

Поскольку любая оценка на ограниченном числе сидов — это случайная величина, Агарвал призывает вместо точечных оценок (point estimates) обязательно публиковать интервалы неопределенности. Причем фиксация начального числа (seed) не спасает от хаоса. Исследователь провел уникальный эксперимент: он дважды запустил один и тот же код на 100 сидах в TensorFlow/Jax на графических процессорах (GPU), где некоторые низкоуровневые операции обладают встроенной аппаратной недетерминированностью, которую невозможно заблокировать.

Результат оказался неожиданным: корреляция между результатами двух абсолютно идентичных запусков составила ничтожные от -0.2 до 0.2. Минимальный аппаратный шум GPU вызывает в RL «эффект бабочки»: незначительное изменение весов на старте меняет траекторию сбора данных, что влечет за собой совершенно иные обновления градиентов и итоговый коллапс или триумф модели.

Аналогичные проблемы параллельно выявили ученые в сферах компьютерного зрения (Vision) и обработки текста (NLP). При тонкой настройке (fine-tuning) предобученных моделей итоговый результат критически зависит от порядка подачи образцов или конкретного чекпоинта. По словам гостя, даже на классическом ImageNet при обучении стандартной архитектуры ResNet разброс составляет около ±1%, что полностью нивелирует ценность сотен статей, заявлявших о прорыве на основе разницы в 0.1%.

Для расчета интервалов неопределенности команда Агарвала применила метод статистического бутстрэпа (statistical bootstrapping). Если у вас есть всего 5 сидов на 10 задач, вы имеете совокупную выборку из 50 точек, что уже позволяет строить достоверные доверительные интервалы (confidence intervals).

Агарвал напоминает, что ведущие американские статистические журналы официально запретили бездумное пороговое тестирование p-значений (p-values). Корректность вывода в духе «p-value меньше 0.05 — значит, открытие совершено, а 0.051 — неудача» признана ложной. Незначительное улучшение на 0.0001% может быть статистически значимым при огромной выборке, но при этом абсолютно бесполезным на практике. Доверительные интервалы, напротив, наглядно демонстрируют реальный размер эффекта (effect size).

📐 Новая триада метрик ИИ

В качестве замены дискредитировавшим себя средним и медианам, статья Ришабха Агарвала вводит в обиход три строгие метрики:

Вероятность улучшения (Probability of Improvement): Рассчитывает точную вероятность того, что случайный запуск нового алгоритма окажется эффективнее случайного запуска базовой модели. Метрика не учитывает масштаб превосходства (улучшение на 1% и на 100% даст одинаковую вероятность), но честно отвечает на вопрос, лучше ли алгоритм, чем исходный вариант.
Интерквартильное среднее (Interquartile Mean, IQM): Вычисление среднего арифметического строго для средних 50% всех полученных результатов (отсекая по 25% худших и лучших прогонов). Метрика берет лучшее от mean и median: она устойчива к аномалиям-выбросам, но чувствительна к изменениям на всех задачах (в отличие от медианы, которая никак не отреагирует, если алгоритм полностью сломается на 49% тестовых игр).
Оптимизационный разрыв (Optimality Gap): Метрика, показывающая, насколько сильно ИИ отстает от уровня человека (где 0 — уровень человека, а 1 — случайные действия). Пересчитав данные прошлых SOTA-работ через Optimality Gap, Агарвал обнаружил примечательный факт: новые алгоритмы действительно повышали медианный балл, но их отрыв от человека в сложных играх только увеличивался. Они становились еще лучше в легких играх, но полностью пасовали перед трудными задачами, что тщательно скрывалось за стандартной медианной агрегацией.

🛠️ Открытый код и сопротивление академической среды 36:38

Предложенные Ришабхом Агарвалом метрики уже начали проникать в рецензии и статьи на конференциях ICLR и NeurIPS. Чтобы исключить любые отговорки исследователей о сложности реализации математического аппарата, авторы выпустили качественную open-source библиотеку на Python, а также готовые скрипты для построения графиков.

Интеграция инструмента не требует изменения логики обучения:

«Вам не нужно внедрять код в сам цикл обучения или организовывать дополнительное логирование. В конце дня вы просто передаете итоговые сырые матрицы чисел в нашу библиотеку, и она мгновенно возвращает вам готовый график профессионального уровня, который можно сразу вставлять в латексный файл статьи».

Основным препятствием для внедрения методологии, по мнению Агарвала, остается психология и жесткие законы академического выживания. Публикация честных доверительных интервалов делает визуальные результаты менее эффектными, обнажая реальный размах неопределенности. Авторы подсознательно боятся, что рецензенты отвергнут статью, если их метод не демонстрирует тотального превосходства над конкурентами.

Тем не менее, замалчивание проблемы ведет к полному кризису воспроизводимости. Из-за feedback-петли в RL (когда действия агента формируют его будущий датасет) и феномена бутстрэпа в Q-обучении (когда нейросеть обучается на основе своих собственных, изначально ошибочных предсказаний) любой случайный чих аппаратуры раздувает дисперсию до небес.

Агарвал резюмирует, что их работа не закрывает все пробелы методологии. Например, вопрос о том, как корректно сопоставить два алгоритма, если у вас есть всего одна задача и 3 сида, до сих пор остается открытым. Главный посыл получившей награду статьи — привить сообществу культуру интервальных оценок и бережного отношения к статистической значимости результатов.