# Обучение с подкреплением: главные вызовы и прорывы стэнфордского курса CS234

Источник: https://www.youtube.com/watch?v=eenJzay5aLo
Канал: Stanford Online
Опубликовано: 30.10.2024

---

Заключительная лекция курса CS234 по обучению с подкреплением в Стэнфордском университете подводит итоги триместра и намечает вектор развития всей ИТ-индустрии. Профессор Эмма Брунскилл анализирует фундаментальные концепции через призму сложнейших практических задач — от контроля термоядерной плазмы до алгоритмов DeepMind. Этот глубокий обзор показывает, почему обучение с подкреплением остается одной из самых многообещающих, но в то же время концептуально сложных областей современного искусственного интеллекта.

## 🧠 Разбор полетов: анатомия PPO и тонкости ценностного выравнивания
[[JUMP:0:05]]

Финальное занятие традиционно началось с разбора комплексного теста, который сдавали студенты. Преподаватели напомнили жесткое требование: любое обоснование выбора должно содержать самостоятельное логическое объяснение, а не просто перефразирование самого варианта ответа. Наибольшие трудности у аудитории вызвали вопросы, касающиеся нюансов популярных алгоритмов и этики ИИ.

### Алгоритм PPO: между on-policy и off-policy

Один из ключевых вопросов теста затронул алгоритм Proximal Policy Optimization (PPO), который студенты реализовывали на практике. Профессор Брунскилл подчеркнула критически важную деталь, часто вызывающую путаницу:

* Самый первый градиентный шаг, который делает PPO после получения свежей порции данных, всегда является **on-policy**.
* Все последующие градиентные шаги в рамках той же итерации неизбежно становятся **off-policy**, поскольку они используют данные, собранные предыдущей версией стратегии.

Кроме того, PPO осуществляет попиксельное взвешивание (importance sampling) исключительно по действиям, а не по состояниям. По словам Брунскилл, этот алгоритм — как и его предшественники — не пытается напрямую исправить несоответствие распределения состояний. Вместо этого он удерживает новую стратегию достаточно близко к старой, рассчитывая, что изменение траектории посещения штатов будет незначительным. Оценщики преимущества при этом могут быть самыми разными (например, GAE), поэтому утверждение о жестком ограничении инструментария ошибочно.

### Проблема этики и автономии пользователя в ИИ

Большую дискуссию в аудитории вызвал блок вопросов, подготовленный приглашенным лектором Дэном и посвященный проблеме ценностного выравнивания (value alignment). Если стандартные подходы ориентируются на индивидуальные предпочтения человека, то моральные теории, как утверждает Дэн, позволяют смотреть шире — на благо всего общества.

Особый спор разгорелся вокруг принципа автономии пользователя. Дэн считает, что выровненный ИИ-агент обязан поддерживать даже субоптимальные или откровенно вредные решения человека, если тот настаивает на них. В качестве примера приводилась ситуация с покупкой сигарет: мы достоверно знаем, что курение вызывает рак легких, однако отказ ИИ предоставить информацию о точках продажи табака Брунскилл назвала «формой патернализма», подрывающей автономию личности.

Один из студентов высказал решительное возражение: если в долгосрочной перспективе решение вредит пользователю, то автономия вступает в прямое противоречие с его «истинными интересами». Профессор Брунскилл парировала это тем, что функция вознаграждения ИИ может состоять из нескольких конфликтующих частей:

* Медицинская составляющая (долгосрочное здоровье) маркирует курение как субоптимальный выбор.
* Этическая составляющая ставит автономию человека выше физического здоровья.

По мнению Брунскилл, полноценная автономия взрослых людей по определению включает в себя свободу совершать ошибки. И если мы хотим, чтобы большие языковые модели (LLM) уважали эту автономию, они должны уметь смиряться с деструктивным выбором пользователя. Исключение составляют лишь группы с ограниченной де-факто автономией, например дети.

## 🌲 Поиск по дереву Монте-Карло: от AlphaZero к теории PAC-обучения
[[JUMP:8:34]]

Следующий блок разбора был посвящен алгоритмам поиска по дереву Монте-Карло (MCTS), которые легли в основу легендарных побед ИИ над человеком в настольных играх.

### Мифы и реальность MCTS

Профессор напомнила базовые теоретические свойства MCTS, в которых студенты часто допускают ошибки:

* Буква «М» в аббревиатуре MCTS означает **Монте-Карло**, а не Марков.
* Алгоритм успешно работает как в марковских, так и в немарковских системах — для генерации следующего шага ему достаточно иметь возможность сэмплировать данные из модели динамики среды, даже если для этого требуется вся история траектории.
* Использование случайного сэмплирования позволяет ИИ уйти от необходимости полного перебора (энумерации) всех возможных состояний, сохраняя точность математического ожидания.

В таких системах, как AlphaGo и AlphaZero, модель наград ИИ известна заранее, поэтому учить ее с нуля не требуется. Тем не менее, алгоритмы верхних доверительных границ (UCB) остаются критически важными, помогая ИИ расставлять приоритеты при расширении дерева поиска вглубь. При этом AlphaZero эффективно сочетает MCTS с самообучением (self-play), тренируя единую нейросеть предсказывать ценность позиций и вероятности действий.

### Теория гарантированных ошибок: концепция PAC

Переходя к теоретическим свойствам RL, Брунскилл затронула концепцию PAC-обучения (Probably Approximately Correct — вероятно, почти корректное). PAC-алгоритмы гарантируют, что система сойдется к $\epsilon$-оптимальной стратегии, но сам параметр $\epsilon$ может быть ненулевым. 

Профессор привела житейскую аналогию: если вы готовы мириться со слегка грязной кухней, то PAC-алгоритм идеально вам подойдет — ИИ совершит лишь конечное число ошибок и в большинстве случаев будет поддерживать относительный порядок, но идеальной чистоты вы не добьетесь.

С точки зрения математической теории:

* Алгоритмы, гарантирующие лишь $\epsilon$-оптимальность, могут совершать мелкие ошибки бесконечно долго, что ведет к линейному росту накопленного регрета ($\epsilon \times t$).
* Максимизация ожидаемой кумулятивной награды и минимизация регрета (разницы между идеальной и текущей стратегиями) математически тождественны.
* Чтобы алгоритм считался истинно PAC, общее число его грубых ошибок должно быть строго ограничено полиномиальной функцией от параметров задачи — включая размерность пространств состояний $|S|$ и действий $|A|$, а также величину $1/\epsilon$.

## 🚀 Три кита практики: AlphaTensor, управление плазмой и ковидное тестирование
[[JUMP:17:03]]

Центральной частью лекции стал детальный разбор трех сложнейших прикладных доменов, которые Брунскилл упоминала еще на самом первом занятии триместра. Студентам было предложено самостоятельно декомпозировать эти задачи на состояния, действия, награды и выбрать для них оптимальные алгоритмы.

### AlphaTensor: ИИ изобретает математические алгоритмы

Проект AlphaTensor от DeepMind решает фундаментальную задачу — поиск максимально быстрого способа перемножения матриц. Уникальность подхода, по мнению Брунскилл, заключается в том, что обучение с подкреплением здесь используется для изобретения новых математических алгоритмов.

Матричное умножение лежит в основе практически всего современного ИИ. AlphaTensor формулирует этот процесс как многошаговую задачу RL. Состояние системы — это текущие операции над входными матрицами, представленными в виде тензоров; действия — конкретные математические шаги рефакторинга; наградой выступает минимизация вычислительной сложности (длины алгоритма) при условии абсолютной математической корректности результата.

Инженерная красота AlphaTensor заключается в архитектуре: нейросеть с общими представлениями имеет две «головы» — стратегическую (policy head) и ценностную (value head), работая в связке с MCTS. При этом Брунскилл обратила внимание на важный нюанс: тяжелый поиск по дереву Монте-Карло происходит исключительно на этапе обучения для генерации оптимального алгоритма. В режиме реального исполнения (runtime) поиск отключается — ИИ просто применяет найденную готовую последовательность шагов. Проблема сдвига распределения данных здесь отсутствует, поскольку корректность шагов верифицируется математически. В результате AlphaTensor не только переоткрыл известные алгоритмы, но и нашел новые схемы, которые ранее не были известны человечеству.

### Управление термоядерной плазмой: асимметрия Актора и Критика

Задача удержания плазмы в ядерном реакторе кардинально отличается от дискретного мира матриц: здесь физика оперирует непрерывными, вещественными величинами (real-valued controls). Самое главное — здесь критически высоки риски. Проводить классическое онлайн-исследование с $\epsilon$-жадными стратегиями на реальном реакторе смертельно опасно, поэтому проект полностью полагается на глубокую офлайн-фазу.

Разработчики создали высокоточный физический симулятор процессов, сделав ставку на модельно-ориентированное RL (Model-based RL). В качестве базового ИИ-каркаса использовался метод Актор-Критик (Actor-Critic), а именно алгоритм MPO. Брунскилл выделила потрясающую архитектурную асимметрию этого проекта:

* **Актор (стратегия контроля)** обязан быть максимально простым, низкоразмерным и легковесным, так как он должен работать на компьютерах реактора в реальном времени с жесткими гарантиями скорости отклика. Плазма не будет ждать, пока нейросеть думает.
* **Критик (оценка ценности состояний)** на этапе обучения в офлайне может быть бесконечно сложным, глубоким, содержать миллионы параметров и требовать огромных вычислительных мощностей, поскольку он выполняет свою работу локально и не задействован в реальном времени внутри реактора.

Безопасность системы была заложена авторами непосредственно в функцию вознаграждения: зоны, где симулятор потенциально неточен или где плазма приближается к опасным границам, были снабжены гигантскими штрафами. Это заставило стратегию ИИ превентивно и консервативно уходить от любых рискованных траекторий.

### Тестирование на границах: многорукие бандиты в реальном мире

Третий кейс — развертывание системы эффективного тестирования пассажиров на COVID-19 на границах Греции в условиях жесткого дефицита лабораторных мощностей. Несмотря на многошаговую природу реального мира, математически ИИ-система была сформулирована как классическая задача о многоруких бандитах, работающая в пакетном режиме с задержкой (batch bandit with delayed outcomes).

Выбор ИИ, протестировать ли конкретного пассажира, сошедшего с самолета, никак не влияет на то, кто прилетит следующим рейсом завтра. Однако результаты тестов приходят лишь спустя 24 часа, что делает неоценимым применение алгоритма сэмплирования Томпсона (Thompson sampling) для балансирования исследования среды. Ситуация осложнялась операционными ограничениями: разные аэропорты имели разную пропускную способность, лаборатории были удалены, а алгоритм должен был учитывать даже негласные этические рамки (например, недопустимость тестирования исключительно женщин, даже если статистика делала такой выбор более эффективным).

Основной теоретический вызов этого проекта заключался в определении награды. Истинная цель — минимизация распространения вируса в стране — проявляется слишком поздно и не может служить сиюминутным сигналом для оптимизации стратегии. Брунскилл отметила, что эта фундаментальная проблема — краткосрочные суррогатные метрики против долгосрочных наград — является главным барьером для ИИ во многих отраслях, включая рекомендательные системы Netflix и Spotify. Слишком долгий сбор честных долгосрочных сигналов критически замедляет скорость проведения экспериментов.

## ⚖️ Фундаментальные вызовы: триада сложности и будущее RL
[[JUMP:52:33]]

В финальной части лекции профессор Брунскилл поднялась на уровень концептуального обобщения, очертив границы того, что умеет современная наука, и с какими непреодолимыми препятствиями сталкиваются инженеры.

### Экстраполяция и «капризная триада» ИИ

Главное отличие обучения с подкреплением от классического обучения с учителем (supervised learning) заключается в том, что действия агента напрямую меняют распределение данных и определяют, какие состояния он посетит в будущем. Это открывает колоссальные возможности, но рождает проблему жесткого сдвига распределения данных (data distribution shift).

Совместно с Челси Финн (профессором Стэнфорда по Deep RL) Брунскилл вывела формулу «опасной триады» ИИ. Когда инженеры одновременно объединяют три элемента:

1.  Аппроксимацию функций (использование нейросетей для сложных задач).
2.  Обучение вне стратегии (off-policy learning для переиспользования старых данных).
3.  Обобщение (генерализацию).

Они неизбежно сталкиваются со страшной проблемой **экстраполяции**. Предсказания нейросети о том, насколько хороша новая стратегия, начинают катастрофически расходиться с ее реальной эффективностью. Агент становится неоправданно оптимистичным в тех зонах, о которых у него нет данных.

Современная индустрия борется с этим локальными методами. В онлайн-схемах, таких как PPO, используется принудительное усечение градиентного шага (clipping). В методах подражания, таких как DAGGER, сдвиг распределения компенсируется постоянным привлечением человека-эксперта для доразметки новых состояний. В офлайн-сценариях алгоритмы CQL (разработка Беркли), MOPO и пессимистичное Q-обучение (созданное в лаборатории самой Брунскилл) искусственно внедряют жесткий математический пессимизм в функцию ценности, жестко карая агента за попытки выйти за пределы знакомого распределения данных. Однако глобально проблема экстраполяции все еще далека от фундаментального решения.

### Модели, ценности и стратегии

Брунскилл предложила взглянуть на три главных объекта архитектуры RL с точки зрения работы с неопределенностью среды:

* **Модели (динамики и наград)** — это самый простой и чистый объект для интеграции неопределенности. Поскольку построение модели среды — это чистая задача предсказания («какое состояние будет следующим?»), инженеры могут безболезненно переносить сюда весь мощный математический аппарат классической статистики, дата-сайенс и обучения с учителем, избегая на этом этапе сложностей планирования.
* **Q-функции (ценности)** — выступают центральным ядром RL, лаконично суммируя эффективность текущей стратегии и позволяя принимать решения простым поиском максимума (argmax).
* **Стратегии (policies)** — финальный продукт, отражающий чистое управление, однако напрямую закладывать неопределенность в стратегию сложнее всего, так как она обязана аккумулировать в себе как неопределенность устройства мира, так и неопределенность выбора наилучшего действия.

Еще один вечный компромисс — это баланс между вычислительной эффективностью (computation) и эффективностью по данным (data efficiency). В симуляторах данные бесплатны, и они тождественны вычислениям. Но в реальном человеческом мире (медицина, образование) данные строго ограничены. Чтобы выжать максимум из каждого бита информации, инженерам приходится применять чудовищно тяжелые, вычислительно затратные алгоритмы. Более того, медленные вычисления в реальном времени порождают феномен «скрытого действия»: пока нейросеть думает над оптимальным шагом, физический мир выполняет какое-то действие по умолчанию, которое часто оказывается субоптимальным.

### Открытые проблемы и горизонты развития

По признанию Эммы Брунскилл, обучение с подкреплением до сих пор не оказало того колоссального и повсеместного прикладного влияния на общество, которое демонстрируют другие области ИИ. Причина кроется в отсутствии стабильных, «коробочных» (off-the-shelf) решений. RL-алгоритмы критически чувствительны к гиперпараметрам (таким как скорость обучения), а в реальном мире у инженера часто есть всего одна попытка запуска траектории, исключающая возможность ручной подстройки параметров на лету. Нам жизненно необходимы автоматический тюнинг, надежные архитектурные гарантии и построение кривых Парето, позволяющих практикам гибко выбирать баланс между затратами на вычисления и доступным объемом данных.

В финале лекции профессор призвала студентов критически переосмыслить сами основы индустрии:

* **Критика МППР:** Марковские процессы принятия решений (МППР), придуманные Ричардом Беллманом еще в 1950-х годах — это прекрасный интеллектуальный каркас, но далеко не факт, что это оптимальный путь для работы с реальными данными. Описывать весь сложнейший мир как единый марковский процесс зачастую избыточно и неэффективно.
* **Уход от обучения с нуля:** Исторически RL заставляли решать каждую задачу с чистого листа, в то время как люди всегда опираются на багаж прошлого опыта. Генеративный ИИ наглядно доказал силу общих репрезентаций (shared representations), и создание мультизадачных базовых моделей (foundation models) для RL — это огромный непаханый пласт для исследований.
* **Язык как награда:** Переход от примитивных скалярных наград к богатой обратной связи в виде естественного языка (благодаря LLM) открывает принципиально новые горизонты обучения ИИ.
* **Сложные среды:** Реальный мир не стохастичен, он наполнен другими игроками, учителями и врагами, что требует форсированного развития многоагентных, кооперативных и состязательных систем.

Стэнфордский университет обладает мощнейшей экосистемой для продолжения этого научного пути: студентам рекомендовали обратить внимание на продвинутые курсы Челси Финн по Deep RL, Майкела Кохендерфера по принятию решений в условиях неопределенности и глубокие теоретические семинары Бенджамина Ван Роя по многоруким бандитам. 

«Вы теперь вооружились до зубов, чтобы выйти в реальный мир и заставить ИИ принимать по-настоящему качественные решения на благо общества», — этими напутственными словами профессор Брунскилл завершила курс.