Минчи Цзян: «Графики метрик скрывали реальные слепые зоны агента»

В интервью с Янником Килхером исследователи Джек Паркер-Холдер и Минчи Цзян подробно разбирают свою научную работу, посвященную алгоритму ACCEL и автоматическому проектированию учебных программ в обучении с подкреплением. Они объясняют концепцию минимаксного сожаления, делятся деталями создания интерактивного сайта проекта и обсуждают фундаментальные проблемы достижения истинной открытости в искусственном интеллекте. Текст ниже представляет собой глубокий анализ затронутых научных механизмов, математических допущений и перспектив развития этой области.

🌐 Интерактивная наука и неожиданные слепые зоны 1:06

Янник Килхер отмечает, что авторы вышли за рамки традиционного мейнстрима. Вместо стандартного улучшения агента они пошли по пути изменения среды, вдохновляясь алгоритмом POET. Джек Паркер-Холдер рассказывает, что стандартный PDF-формат на arXiv сильно ограничивает визуализацию сложного поведения агентов. При создании сайта авторы вдохновлялись проектами Distill pub, работами Дэвида Ха из Google Brain и фреймворком Teach My Agent от Flowers lab.

По мнению исследователей, предоставление пользователям возможности интерактивно ломать ландшафт помогло выявить скрытые недостатки алгоритма. В частности, Минчи Цзян отмечает, что графики метрик стабильно росли вверх и вправо, скрывая реальные «слепые зоны». Только визуализация показала, что универсальный агент выработал специфическую стратегию прыжков на одной ноге (пого-стик), которая отлично работает на спусках, но пасует перед крутыми подъемами.

📈 Эволюция идеи: от PLR к алгоритму ACCEL 4:48

Джек Паркер-Холдер признается, что алгоритм POET оказал на него огромное влияние еще до начала его PhD. Во время стажировки в компании Meta вместе с Тимом Роктэшелом и Эдвардом Грефенштеттом команда сфокусировалась на проблеме генерализации. Возникла идея объединить принципы POET с методами автоматического дизайна сред на основе концепции сожаления (regret).

Минчи Цзян добавляет, что пришел к теме учебных программ (curriculum learning) на первом курсе аспирантуры, стремясь повысить эффективность RL-агентов за счет их обучения на уровнях, находящихся «чуть выше текущих возможностей». Это привело к созданию метода Prioritized Level Replay (PLR), который успешно показал себя на бенчмарке OpenAI Procgen. Позже, в сотрудничестве с Майклом Деннисом из Калифорнийского университета в Беркли (соавтором статьи о PAIRED), исследователи поняли, что PLR является еще одним воплощением игры с минимаксным сожалением. Алгоритм ACCEL стал кульминацией этой серии работ.

🧠 Сущность минимаксного сожаления простыми словами 8:20

Теория неконтролируемого проектирования сред (UED), сформулированная Майклом Деннисом и Наташей Жак, представляет обучение как антагонистическую игру с нулевой суммой между учителем и учеником. Выигрыш ученика — это отрицательное сожаление, а выигрыш учителя — положительное. В состоянии равновесия Нэша ученик минимизирует свое сожаление в худшем случае.

В практическом смысле, по словам Минчи Цзяна, это заставляет агента хорошо справляться с любым разрешимым уровнем в параметризованном пространстве задач ($\theta$), где учитель выбирает позиции препятствий или трасс. Джек Паркер-Холдер подчеркивает важное отличие от POET:

Алгоритм POET стремится к достижению максимальной сложности среды ради самой сложности.
Алгоритм ACCEL нацелен на решение всех простейших разрешимых сред, предотвращая ситуации, когда агент ломается на тривиальной задаче после освоения сложных уровней.

🔢 Математический баланс и Positive Value Loss 11:46

На вопрос Янника Килхера о том, почему алгоритм не выбирает запредельно сложные уровни, Минчи Цзян отвечает, что ключевую роль играет фактор дисконтирования. В оригинальном PAIRED награда уменьшалась с длиной траектории. В ACCEL дисконтирование заложено в саму функцию ценности (value function) через обобщенную оценку преимущества (GAE) Шульмана с параметрами $\gamma$ и $\lambda$. Это заставляет систему приоритизировать уровни, где решение достигается за минимальное число шагов.

Формула положительных потерь ценности (Positive Value Loss) оценивает преимущество как разницу между фактическим возвратом и предсказанием функции ценности. Операция максимизации с нулем ($max(0, \cdot)$) отсекает случаи, когда агент справляется хуже обычного. По мнению Цзяна, фиксация шагов, где агент превосходит собственные средние ожидания, позволяет алгоритму обнаруживать новые источники сожаления. Джек Паркер-Холдер сравнивает этот подход с альтернативами:

Алгоритм PAIRED использует второго агента-антагониста для вычисления сожаления как разницы в результатах.
Метод Robust PLR задействует Maximum Monte Carlo regret estimator, который отслеживает максимальный исторический возврат для каждого уровня, снижая привязку к текущей политике за счет хранения истории.

⚙️ Почему случайный поиск побеждает обученного учителя 21:05

Изначально создатели ACCEL планировали использовать обучаемый нейросетевой редактор уровней. Однако на практике простейшая мутация уровней случайным редактированием показала выдающиеся результаты в среде MiniGrid. Минчи Цзян объясняет неэффективность обучения учителя методами RL высокой нестационарностью задачи: политика ученика постоянно эволюционирует, и RL-агенту не хватает эффективности выборки (sample efficiency), чтобы отслеживать эти изменения. Случайный поиск в сочетании с эволюционной стратегией отбора позволяет мгновенно перемещаться в любую точку пространства параметров, минуя ограничения градиентного шага.

При этом авторы признают, что параметризация среды и шагов ее редактирования по-прежнему требует экспертных знаний о предметной области (domain knowledge). В экспериментах с Bipedal Walker и блоками MiniGrid они проводили перебор количества правок за один шаг. Метод показал высокую устойчивость к этому гиперпараметру. Порог добавления уровней в буфер не является фиксированным числом, а динамически определяется как худший результат среди текущих лидеров в очереди с приоритетом.

🔮 Границы генерализации и взгляд в будущее ИИ 31:55

Агент ACCEL представляет собой простую полносвязную сеть с двумя скрытыми слоями. Из-за ограниченной емкости модель склонна к сужению разнообразия стратегий. В MiniGrid при достижении плотности в 60 блоков уровни превращаются в сложные структуры. Агент успешно выработал стратегию «левой руки» для навигации в условиях частичной наблюдаемости. При проверке на экстремальных картах из POET агент ACCEL показал низкую результативность, достигнув лишь 8% успеха на огромном лабиринте. По мнению Паркера-Холдера, это подчеркивает дуализм: ACCEL создает генералистов, устойчивых к неизвестному, а POET — узких специалистов.

В финале беседы ученые обсуждают концепцию открытости (open-endedness) и идею Джеффа Клуна «ИИ, создающий ИИ» (AI generating AI). Главным барьером на пути к истинной открытости Паркер-Холдер считает жесткую привязку к симуляторам. Он предлагает использовать трансформерные модели мира (world models), которые смогут обучаться в цикле Real-to-Sim-to-Real: агент собирает данные в реальности, обогащает симулятор, обучается в нем и возвращается в реальность. Минчи Цзян резюмирует, что в будущем грань между агентом и средой может стереться, позволяя генерировать их совместные распределения внутри единой большой нейросетевой модели. Для старта в этой области исследователи рекомендуют изучить манифест по автоматическому обучению учебных программ от Джоэла Лейбо из DeepMind и посетить воркшоп ALOE на конференции ICLR.