# Том Захави: «Обучение с подкреплением — самый общий фреймворк для AGI»

Источник: https://www.youtube.com/watch?v=hfaZwgk_iS0
Канал: Machine Learning Street Talk
Опубликовано: 23.03.2021

---

Обучение с подкреплением (RL) рассматривается многими исследователями как наиболее универсальный фреймворк для достижения сильного искусственного интеллекта (AGI). В интервью для Machine Learning Street Talk ученый из DeepMind Том Захави (Tom Zahavy) делится своим видением того, как алгоритмы могут обучаться обучению с помощью метаградиентов. В материале подробно разбираются математические основы метаобучения, проблемы нестационарности сред и практическая применимость RL в индустрии.

## 🧬 Эпифания глубокого обучения и поиск структуры в RL
[[JUMP:0:00]]

В 2012 году, будучи студентом бакалавриата еще до бума глубокого обучения, Том Захави посетил онлайн-лекцию по сверточным нейронным сетям (CNN). Это событие стало для него настоящим озарением: он осознал, что способность автоматически обнаруживать структуру и паттерны в данных является фундаментальным аспект интеллекта. Спустя два года он начал свою PhD-программу в области обучения с подкреплением в Израильском технологическом институте (Технион) — всего через два месяца после того, как вышла историческая статья DeepMind в журнале Nature про обучение агентов игре на приставке Atari.

По мнению Тома Захави, сфера RL до сих пор не пережила своего «момента AlexNet» или «момента ImageNet». Он считает, что сообществу все еще необходимо найти архитектурный аналог сверточных сетей для RL, который позволит автоматически выявлять временные и пространственные структуры в процессе взаимодействия со средой. В своих текущих исследованиях в DeepMind Захави фокусируется на двух взаимосвязанных направлениях:

* Сохранение разнообразия (diversity preservation) в поведении агентов.
* Использование метаградиентов для динамического обнаружения структуры алгоритмов.

## 🧠 Что такое метаградиенты: петля обучения в действии
[[JUMP:1:44]]

Соведущий подкаста Роберт Ланге цитирует свой недавний обзор методов мета-полиномиальных градиентов, отмечая, что большинство стандартных кривых обучения неизбежно выходят на плато. После первоначального поглощения статистических закономерностей система насыщается, упираясь в жесткие ограничения созданных человеком правил и индуктивных смещений, что в худшем случае приводит к переобучению. Решением, по мнению Ланге, выступает интроспекция — способность обучающейся системы критиковать собственное поведение в полностью самореферентной манере, реализуя концепцию «обучения тому, как обучаться». Эта идея восходит к докторской диссертации Юргена Шмидхубера 1987 года, где утверждалось, что любая самореферентная эволюционирующая система должна ускорять собственную эволюцию.


Том Захави разделяет метаобучение на три ключевых уровня в зависимости от точки приложения:

* Среда (эволюция окружения, в котором тренируется модель).
* Архитектура (автоматический поиск нейросетевых топологий).
* Алгоритмы обучения (модификация правил обновления весов).

Метаградиенты представляют собой реализацию третьего уровня. Этот подход позволяет оптимизировать параметры внутреннего цикла (inner loop), максимизируя целевую функцию внешнего цикла (outer loop). С помощью метаградиентов агент способен на лету настраивать гиперпараметры, изучать опции (временные абстракции действий) или внутренние награды (intrinsic rewards). Янник Килчер поднимает философский вопрос: эффективнее ли использовать отдельного координирующего агента во внешнем цикле, или стоит создавать монолитную рефлексивную систему? Захави признает, что фракционирование обучения на изолированные циклы потенциально способно порождать новые мета-гиперпараметры, однако этот компромисс оправдан математической гибкостью фреймворка.

## ⚖️ Проблема нестационарности и дилемма смещения-дисперсии
[[JUMP:3:45]]

Обучение с подкреплением принципиально сложнее supervised learning, поскольку агент обучается, совершая действия и исследуя среду, не имея возможности увидеть исходы альтернативных шагов, которые он не предпринял. Ситуация осложняется проблемой распределения кредита (credit assignment) и разреженными наградами, когда сигнал об успехе может не поступать в систему на протяжении огромных временных интервалов. Кроме того, агенты часто оказываются в обманчивых пространствах поиска (deceptive search spaces), где их текущий градиентный вектор указывает в неверном направлении.

Том Захави подчеркивает, что динамика обучения во многих конфигурациях RL изначально нестабильна. Попытки стабилизировать ее с помощью отсечения градиентов (gradient clipping), разделяемых репрезентаций или вспомогательных задач (auxiliary tasks) часто насыщают емкость модели, внося дополнительную нестационарность.

Метаградиенты выступают инструментом борьбы с этими вызовами, предлагая оптимизатор, который динамически адаптируется к меняющимся условиям обучения. При этом в архитектурных решениях сохраняется классический компромисс между смещением и дисперсией (bias-variance trade-off). Захави объясняет эту дилемму на примере метапараметров:

* Автоматическая настройка (self-tuning) с малым числом скалярных параметров критична к минимизации дисперсии градиента.
* Изучение сложной внутренней награды с помощью глубокой сети с миллионами параметров требует снижения смещения.

Эмпирические результаты DeepMind показывают: чем больше метаградиентных параметров добавляется в систему, тем выше итоговая производительность агента на сложных бенчмарках.

## 🔬 Белый ящик против чёрного: эволюция метаобучения
[[JUMP:11:50]]

В историческом обзоре метаградиентных методов Захави выделяет два ключевых разделения. Первое касается объекта оптимизации. Ранняя работа Чжунвэня Сю (Zhongwen Xu) в 2018 году была сфокусирована исключительно на метанастройке гиперпараметров (таких как фактор дисконтирования $\gamma$ и параметр лямбда-возврата). В то же время исследование под руководством Зэюя Чжэна (Zeyu Zheng) было направлено на автономный поиск метасети внутренних наград.

Второе разделение — между методами «белого ящика» (white box) и «черного ящика» (black box):

* Методы «белого ящика» оптимизируют хорошо понятные человеку компоненты алгоритма (те же гиперпараметры), опираясь на сильную теоретическую инициализацию.
* Методы «черного ящика» стремятся полностью заменить человеческую интуицию, моделируя функцию потерь агента единой нейросетью. Это отдаляет систему от хорошей начальной точки, но дает ей шанс открыть принципиально новые алгоритмы.

Янник Килчер задает закономерный вопрос: если агент обучается в рамках одной среды, почему бы просто не запустить один гигантский базовый алгоритм (например, MuZero) на долгое время, вместо затрат ресурсов на метаобучение? Захави парирует это, разделяя подходы на «несколько жизненных циклов» (multiple lifetimes) и «один жизненный цикл» (single lifetime). В рамках одной жизни (как в его алгоритме self-tuning actor-critic) метаградиенты заставляют алгоритм намеренно переобучаться под конкретную среду, делая его локально идеальным. Причина, по которой алгоритмы все еще тестируют на пуле разных сред, заключается лишь в отсутствии универсального симулятора, идеально моделирующего весь физический мир.

## 🧱 Опыт Minecraft и природа внутренней мотивации
[[JUMP:46:12]]

Ведущие замечают, что самой цитируемой публикацией Тома Захави в Google Scholar является работа 2016 года, посвященная глубокому иерархическому подходу к непрерывному обучению (lifelong learning) в Minecraft. Захави вспоминает, что это была эпоха романтического хакинга: статья dqn в Nature еще не вышла, а в его распоряжении находился всего один компьютер с одной GPU. Чтобы скормить агенту визуальный поток, написанный студентами интерфейс буквально делал скриншоты экрана (print screen) в реальном времени, так как Microsoft Malmo и DM Lab тогда еще не существовали.

Minecraft интересен тем, что у игрока в нем нет эксплицитной внешней награды. По мнению Захави, люди выживают в нем благодаря врожденной внутренней мотивации, получая дофаминовую радость от самого процесса созидания или открытия новых зон. Гость предлагает переосмыслить устоявшийся в RL взгляд на мир как на среду с разреженными наградами:

> «Я лично считаю, что реальный мир наполнен плотными, частыми наградами. Главный вызов для человека и машины — не найти редкую награду, а эффективно выбирать между множеством конкурирующих источников плотных наград».

Именно здесь метаградиенты раскрывают свой потенциал, позволяя агенту самостоятельно конструировать систему внутренних поощрений, формируя подцели и макроструктуры поведения для адаптации в неструктурированном хаосе.

## ⚔️ Спор гигантов: «Награда — это всё, что нужно» против бенчмарков Шолле
[[JUMP:55:07]]

Тим Скарф указывает на позицию Франсуа Шолле (François Chollet), автора теста ARC, который утверждает, что интеллект жестко завязан на эффективность усвоения информации и генерализацию в топологических пространствах. Шолле считает, что современное обучение с подкреплением не является подлинным интеллектом, поскольку представляет собой лишь неэффективный перебор вариантов (brute force), требующий запредельного объема опыта.

Том Захави категорически не согласен с критикой Шолле. По мнению гостя, теоретические основы RL лежат в самой сути интеллекта — в математических моделях того, как агент собирает информацию для минимизации неопределенности. Захави признает, что брутфорс-планирование (как в шахматном суперкомпьютере Deep Blue) действительно не имеет отношения к интеллекту, однако для решения игры Го сообществу пришлось отойти от чистого перебора и внедрить механизмы распознавания паттернов глубокими сетями.

Захави открыто поддерживает гипотезу Дэвида Сильвера «Reward is all you need». Он напоминает, что математический аппарат RL расширяет классическую supervised-теорию за счет трех фундаментальных китов:

1.  Активное онлайн-исследование среды (exploration).
2.  Строгий баланс между поиском и эксплуатацией (многорукие бандиты).
3.  Временное распределение кредита за действия (credit assignment).

По словам Захави, любую выпуклую задачу, определенную на марковском процессе принятия решений (MDP), можно свести к максимизации скалярной награды. На тезис Шолле о необходимости перехода к программно-центричной генерализации на графах вместо нейросетей Захави отвечает защитой непрерывной интерполяции, указывая на эмпирический успех феномена двойного спуска (double descent) и гипотезу лотерейных билетов.

## 💻 Аппаратная лотерея, Jax и советы для аспирантов
[[JUMP:1:00:48]]

Анализируя знаменитый манифест Сары Хукер об «аппаратной лотерее» (идее о том, что доступное железо жестко диктует вектор развития науки, хороня альтернативные подходы), Захави признает эту корреляцию. Переход DeepMind на библиотеку Jax и тензорные процессоры (TPU) кардинально изменил ландшафт метаобучения. До Jax исследователям приходилось вручную выводить аналитические уравнения производных высших порядков для градиентов от градиентов и кодить их с нуля. Сегодня благодаря автоматическому дифференцированию и векторизации в Jax достаточно просто описать функции потерь внутреннего и внешнего циклов.

Роберт Ланге, основываясь на своем опыте PhD в Берлине, выражает сомнение: имеет ли смысл рядовому аспиранту без вычислительных кластеров уровня DeepMind соваться в область метаградиентов? Том Захави спешит развеять эти опасения. Он указывает, что онлайн-агенты (такие как IMPALA или A2C/A3C), используемые в метаградиентных исследованиях, требуют в 8 раз меньше вычислений на одну точку данных по сравнению с классическим DQN, так как они полностью лишены тяжелого буфера воспроизведения (experience replay). 

Аспирантам, по мнению Захави, не нужно пытаться побить рекорды на всех 57 играх Atari. Вместо этого он рекомендует:

* Сконцентрироваться на изоляции качественных свойств алгоритмов (стабильность, адаптивность).
* Проводить эксперименты на глубоко осмысленных микро-доменах.
* Использовать комбинацию теории и практики, верифицируя математические свойства на малых масштабах.

На реплику Тима Скарфа о статье Алекса Ирпана «Deep Reinforcement Learning Doesn't Work Yet» и о том, что RL абсолютно не готов к внедрению в реальный бизнес без костылей вроде платформы Microsoft Bonsai, Захави отвечает сдержанным оптимизмом. Он соглашается, что RL пока не является коробочным (off-the-shelf) продуктом, как supervised-модели. Однако, как показывает его личный опыт стажировок в Walmart.com и работы над Google Maps, метаградиентные надстройки критически важны для промышленных систем, где распределение данных постоянно плывет из-за смены сезонов или праздников.

## 🎮 Анализ t-SNE: как DQN незаметно для разработчиков строит иерархии
[[JUMP:1:19:22]]

В завершение интервью спикеры вспоминают раннюю знаковую работу Захави, посвященную анализу скрытых слоев DQN на игре Breakout. Исследователи применили алгоритм t-SNE для снижения размерности эмбеддингов последнего слоя нейросети, чтобы визуализировать их для человеческого глаза. 

К удивлению авторов, сеть, которую никто не обучал иерархическим концепциям, самостоятельно сгруппировала состояния среды в абстрактные кластеры, напоминающие макро-опции человека. Были зафиксированы четкие геометрические скопления:

* В Breakout: обособленный кластер, отвечающий за стратегию «пробивания туннеля» в стене блоков для запуска мяча в закирпичное пространство.
* В Seaquest: макро-структуры для всплытия ради пополнения воздуха, отстрела врагов и сбора водолазов.

Позже команда математически формализовала этот феномен, описав его как «абстрактный MDP». Том Захави честно признает, что тогда, в 2016 году, они не смогли конвертировать эти данные в улучшение качества управления агентом. Однако именно эта неудача послужила катализатором для его перехода к метаградиентам: вместо пост-анализа структуры Захави решил заставить алгоритмы создавать и использовать эти абстракции непосредственно в процессе обучения.