# Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

Источник: https://www.youtube.com/watch?v=F6APGIAm5fw
Канал: Stanford Online
Опубликовано: 30.10.2024

---

В лекции из курса Стэнфордского университета CS234 рассматриваются продвинутые методы офлайн-обучения с подкреплением (Offline RL) и оценки стратегий по фиксированным наборам данных. Преподаватель подробно разбирает ограничения классических подходов, проблему мисспицификации моделей и концепцию пессимизма в условиях неопределенности. На практических примерах из медицины и образования демонстрируется, как алгоритмы могут безопасно превосходить человеческий опыт без сбора новых данных.

## 🧠 От RLHF к DPO: как выйти за пределы экспертных демонстраций
[[JUMP:0:05]]

Лекция начинается с разбора фундаментальных различий между алгоритмами обучения на основе человеческих предпочтений — RLHF (Reinforcement Learning from Human Feedback) и DPO (Direct Preference Optimization). В ходе экспресс-опроса аудитории проясняется распространенное заблуждение: вопреки мнению многих студентов, обе эти стратегии работают с функцией вознаграждения по-разному. Алгоритм RLHF строит и обучает явное параметрическое представление функции вознаграждения, в то время как DPO математически инвертирует эту зависимость, что позволяет напрямую проводить оптимизацию стратегии (policy learning) без промежуточного шага явного моделирования наград.

### Выход за рамки обучающей выборки
Важным теоретическим аспектом является вопрос о том, ограничена ли эффективность этих алгоритмов качеством лучших примеров в наборе данных парных предпочтений. Ответ профессора однозначен — это утверждение ложно. Благодаря использованию аппроксимации функций нейросетями, модель способна совершать шаги оптимизации, которые ведут к получению результатов, превосходящих исходные демонстрации. 

В процессе RLHF собранная информация применяется для построения качественной модели вознаграждения. Если эта модель обладает хорошей способностью к экстраполяции и генерализации за пределы имеющихся образцов, последующее применение алгоритма PPO (Proximal Policy Optimization) позволяет обучить стратегию, превосходящую демонстрации. По мнению автора лекции, наглядным примером этого феномена является ChatGPT:

* Сначала языковая модель настраивалась с помощью контролируемого обучения (Supervised Fine-Tuning, SFT).
* Затем сгенерированные варианты ответов демонстрировались людям для формирования базы парных предпочтений.
* На основе этих данных обучалась модель наград, после чего оптимизация через PPO позволила превзойти качество исходных человеческих демонстраций.

Как PPO, так и DPO используют опорную стратегию (reference policy). Главный вызов здесь заключается в поиске баланса: как далеко алгоритм может экстраполировать или интерполировать данные, и в каких случаях необходимо жестко ограничивать изменения стратегии в пространстве решений, чтобы не попасть в области пространства состояний с непредсказуемо низким качеством работы. Этот принцип контролируемой генерализации ранее уже встречался в имитационном обучении (Imitation Learning), а также в архитектурах PPO и DPO.

## 🎮 Проект Refraction: превосходя результаты экспертов в образовании
[[JUMP:5:47]]

Переходя от обучения на основе человеческих предпочтений к общей концепции извлечения знаний из исторических данных, профессор задается вопросом: можно ли систематически превосходить результаты стандартного имитационного обучения? В качестве примера приводится область образования и здравоохранения, где решения традиционно принимаются людьми или автоматизированными системами, а результаты фиксируются в медицинских картах или логах взаимодействия. Автор отмечает, что в американской системе здравоохранения огромные финансовые затраты не всегда конвертируются в высокое качество результатов, поэтому оптимизация последовательностей медицинских решений через RL имеет колоссальный потенциал.

### Опыт геймификации математики
Около десяти лет назад исследовательская лаборатория автора лекции начала сотрудничество с профессором Зораном Поповичем (Zoran Popovic) из Университета Вашингтона. Его команда разработала образовательную игру *Refraction*, направленную на обучение детей дробям — одной из самых сложных концепций в школьной математике. По сюжету игроки управляют космическим кораблем, заправляя его путем разделения лазерных лучей на дробные части. К моменту исследования в игру сыграло около 500 000 детей.

Перед учеными стояла задача сделать игровой процесс адаптивным и персонализированным. На основе действий ребенка система должна была динамически выбирать следующее игровое задание. Пространство состояний включало богатый контекст:

* Время, затраченное на прохождение текущего уровня.
* Координаты размещения лазерных лучей на экране.
* Характерные последовательности ошибок, совершаемых учеником.

### Результаты оптимизации вовлечения
В распоряжении исследователей был массив данных от 11 000 учеников, которые получали задания в случайном порядке. Изначально человеческий дизайнер спроектировал фиксированную траекторию игры, но ее оптимальность вызывала сомнения. Игра распространялась на платформе *BrainPOP*, где типичной проблемой было быстрое выгорание аудитории — дети включали игру, но вскоре бросали ее. Поскольку удержание (persistence) напрямую коррелировало с обучением, целью RL-агента стало максимизирование количества пройденных уровней.

Применение методов офлайн-обучения с подкреплением показало выдающиеся результаты:

* Разработанная адаптивная стратегия позволила увеличить метрику удержания детей в игре на 30% по сравнению с методом клонирования поведения (Behavior Cloning).
* Этот успех доказывает, что использование естественной вариативности в исторических данных позволяет находить новые политики управления, которые существенно превосходят экспертный человеческий дизайн.

Отвечая на вопрос из аудитории о равномерности этого прироста, профессор сослалась на научную публикацию своей лаборатории, вышедшую в январе. Анализ показал, что наибольший позитивный эффект от внедрения RL-стратегии ощутили самые слабые ученики (lowest performers). По мнению исследователей, это критически важно, так как большинство адаптивных систем зачастую лишь увеличивают образовательное неравенство, принося пользу только тем, кто и так опережает программу. Для выявления таких эффектов применяется специализированный анализ гетерогенных эффектов лечения (heterogeneous treatment effect analysis). В частности, в другой игре на платформе *BrainPOP* — *Battleship Numberline* — было экспериментально доказано, что визуальное разнообразие (размер кораблей и их оформление) критически влияет на вовлеченность детей.

## 🏥 Оценка стратегий по историческим данным: ловушки модельного подхода
[[JUMP:14:26]]

Вторым масштабным примером использования офлайн-RL стала совместная работа с Финале Доши-Велез (Finale Doshi-Velez) из Гарварда, посвященная оптимизации лечения артериальной гипертензии. Исследователи использовали знаменитый открытый датасет MIMIC (разработка MIT и Mass General Hospital), аккумулирующий миллионы электронных медицинских записей. Применив алгоритм под названием Popcorn, авторы смогли синтезировать медицинские стратегии, которые продемонстрировали значительно более высокую теоретическую эффективность по сравнению с плоской базовой линией реальной врачебной практики.

### Проблема причинно-следственного вывода
Описанный подход называется офлайн-, пакетным (batch) или контрфактуальным (counterfactual) обучением с подкреплением. Термин «контрфактуальный» подчеркивает, что алгоритм пытается оценить или обучить стратегии, которые физически не проверялись в процессе сбора данных. Нам доступен фиксированный набор из $n$ траекторий, состоящих из последовательностей состояний, действий и наград. 

Главная сложность заключается в том, что данные подвержены цензурированию (censored data): для конкретного пациента мы никогда не узнаем, что бы произошло, если бы ему назначили альтернативный препарат. По мнению спикера, это классическое проявление фундаментальной проблемы причинно-следственного вывода (fundamental problem of causal inference).

Студенты часто задаются вопросом, почему нельзя использовать стандартные алгоритмы вроде Q-learning или DQN, известные с самого зарождения RL. Проблема кроется в феномене «смертельной триады» (deadly triad), когда одновременное сочетание трех факторов разрушает стабильность обучения:

1. Бутстрэпинг (обновление оценок на основе других оценок).
2. Аппроксимация функций (использование нейросетей).
3. Обучение со сторонней стратегией (off-policy learning).

В исследовании Скотта Фудзимото (Scott Fujimoto) было показано, что стандартный алгоритм Deep Q-learning (DQN) на фиксированных данных работает не лучше базовой поведенческой стратегии, а алгоритм DPG вовсе терпит крах. Однако метод BCQ (Behavior Constrained Q-learning), разработанный специально для офлайн-данных, продемонстрировал существенное превосходство за счет жесткого ограничения отклонений от исторической выборки.

### Иллюзия точности в симуляторах
Профессор Фил Томас (Phil Thomas) из UMass Amherst в рамках своей постдок-работы совместно с компанией Adobe исследовал sample-efficient методы оценки политик на массивах из 10–20 миллионов траекторий. Термином «поведенческая стратегия» (behavior policy) в таких задачах всегда называют ту политику, которая изначально применялась для сбора имеющегося датасета.

Самый очевидный способ оценить новую стратегию — построить на основе данных явную модель среды (Model-Based RL): выучить функции переходов состояний и модель наград. Полученную модель можно использовать как симулятор мира для запуска динамического программирования, Q-learning или методов Монте-Карло. 

Однако реальный эксперимент с игрой *Refraction* выявил опасный парадокс модельзависимого подхода:

* Ученые последовательно усложняли представление пространства состояний. Согласно кросс-валидации на отложенной выборке, качество предсказания следующего состояния (log-likelihood) монотонно росло — модель действительно становилась точнее.
* Затем из этой точной модели с помощью динамического программирования извлекалась оптимальная стратегия $\pi^*$.
* Но когда эту стратегию развернули в реальном мире и измерили ее истинную ценность с помощью несмещенного оценщика, ее эффективность оказалась катастрофически низкой. Чем сложнее и «точнее» (по метрике правдоподобия) был симулятор, тем хуже работала полученная из него стратегия в реальности.

Причина этого явления — мисспицификация модели (model misspecification). Даже если у вас есть бесконечный объем данных, абстрактная модель (например, марковская цепь на 20 состояний) принципиально не способна полностью описать все нюансы человеческого мышления и обучения. Симулятор выдает завышенную внутреннюю оценку эффективности стратегии $\hat{V}(\hat{\pi}^*)$, которая не имеет ничего общего с реальностью. 

Для решения этой проблемы в совместной работе с Омером Готтесманом (Omer Gottesman) было предложено изменить функцию потерь при обучении симулятора. Вместо минимизации ошибки на распределении поведенческой стратегии, ошибки искусственно перевзвешиваются в пользу тех пар состояние-действие, которые с наибольшей вероятностью будут посещены целевой (новой) стратегией в будущем.

## 📊 Модель-фри оценка: алгоритм Fitted Q Evaluation и его границы
[[JUMP:31:34]]

Альтернативой симуляторам выступают свободные от моделей (model-free) методы. Одним из базовых алгоритмов является Fitted Q Evaluation (FQE). Он структурно похож на Deep Q-learning, но имеет одно фундаментальное отличие: вместо поиска максимума (`argmax` или `max`) по действиям для обновления целевых значений, алгоритм строго фиксирует действия, которые предписывает конкретная оцениваемая стратегия $\pi$.

Инициализировав нейросеть $Q$, алгоритм итеративно рассчитывает целевые значения (targets): 
$$y_i = r_i + \gamma Q(s_{i+1}, \pi(s_{i+1}))$$
и минимизирует среднеквадратичную ошибку по историческим кортежам данных. Этот метод уходит корнями в алгоритм Fitted Q Iteration (FQI), предложенный в районе 2005 года.

Математические гарантии точности оценки FQE зависят от нескольких критических параметров:

* Размера выборки $n$ и желаемой точности ошибки $\epsilon$.
* Фактора дисконтирования $\gamma$, определяющего долгосрочность горизонта планирования.
* Коэффициента концентрации (concentratability coefficient).

Коэффициент концентрации отражает степень расхождения (дивергенции) между многомерными распределениями состояний и действий в обучающем датасете и распределениями, которые возникнут при развертывании целевой стратегии. Главные уязвимости FQE — он по-прежнему жестко опирается на марковское предположение (Markov assumption) и требует условия реализуемости (realizability), то есть архитектура нейросети должна быть способна физически выразить истинную функцию $Q$. Если реальная функция нелинейна, а мы пытаемся аппроксимировать ее линейной моделью с двумя параметрами, ошибка останется огромной даже при бесконечном объеме данных.

## ⚖️ Выборка по значимости (Importance Sampling): математическое изящество без марковских оков
[[JUMP:38:01]]

Для обхода ограничений, связанных с неверной спецификацией моделей и марковскими допущениями, применяется классический статистический метод — выборка по значимости (Importance Sampling). Этот подход позволяет использовать траектории, сгенерированные историческим распределением $Q(x)$, для вычисления точного математического ожидания награды для целевого распределения $P(x)$, из которого у нас нет ни одного реального сэмпла.

Математический трюк заключается в одновременном умножении и делении на плотность распределения $Q(x)$:
$$\mathbb{E}_{x \sim P}[R(x)] = \sum P(x)R(x) = \sum Q(x) \frac{P(x)}{Q(x)} R(x) = \mathbb{E}_{x \sim Q}\left[\frac{P(x)}{Q(x)}R(x)\right]$$
На практике это позволяет аппроксимировать истинное значение через взвешенную сумму имеющихся сэмплов:
$$\frac{1}{n} \sum_{i=1}^n \frac{P(x_i)}{Q(x_i)} R(x_i)$$
Если какое-то состояние очень вероятно при стратегии $Q$, но редко встречается при $P$, его вес занижается; если наоборот — сэмпл аппроксимируется с повышающим коэффициентом. Оценка является абсолютно несмещенной.

### Две жесткие аксиомы метода
Для корректной работы Importance Sampling должны соблюдаться два строгих условия:

1.  **Наличие покрытия (Coverage):** Вероятность совершения действия в любом посещаемом состоянии под управлением целевой стратегии должна быть строго равна нулю, если она равна нулю в поведенческой стратегии ($Q(x) > 0$ для всех $x$, где $P(x) > 0$). Нельзя оценить стратегию походов в кинотеатры, если в вашем историческом датасете агент ходил только в рестораны и кофейни.
2.  **Отсутствие скрытых вмешивающихся факторов (No hidden confounding):** Все признаки и контексты, на основании которых человек или система принимали решения в прошлом, должны быть зафиксированы в данных.

Проблема скрытого конфаундинга чрезвычайно опасна в медицине. Если в электронных картах зафиксировано, что группа тяжелых пациентов была отправлена на операцию и часть из них скончалась, а более легких больных лечили медикаментозно, и они выжили, то без учета скрытого признака первичной тяжести состояния Importance Sampling выдаст ложный вывод о вреде хирургического вмешательства [44:48 - 45:39]. 

Профессор привела пример из собственной практики исследования влияния генеративного ИИ на образование. Студентам предоставили опциональный доступ к GPT-4. Часть учащихся активно пользовалась инструментом, часть проигнорировала его. При попытке оценить влияние ИИ на экзаменационные оценки возникает скрытый конфаундинг: студенты, решившие использовать GPT-4, исходно обладали иной мотивацией и паттернами обучения, что напрямую влияет на их оценки независимо от самого ИИ. В симуляторах вроде MuJoCo такой проблемы нет, так как исследователь полностью контролирует генерацию данных.

### Разбор математической задачи
На лекции был разобран показательный пример с тремя доступными действиями ($A_1, A_2, A_3$):

* Действие $A_1$ — это распределение Бернулли, которое дает награду 100 с вероятностью 0.02 (матожидание наград = 2).
* Действие $A_2$ дает награду 2 с вероятностью 0.55 (матожидание = 1.1).
* Действие $A_3$ дает награду 1 с вероятностью 0.5 (матожидание = 0.5) [53:45 - 54:27].

Поведенческая стратегия $\pi_1$ выбирает действие $A_3$ с вероятностью 0.8, а $A_2$ — с вероятностью 0.2 (общее матожидание $\approx 0.62$). Новая оцениваемая стратегия $\pi_2$ выбирает $A_2$ с вероятностью 0.5 и $A_1$ с вероятностью 0.5 (общее матожидание $\approx 1.55$). 

Анализ этой задачи выявил важные закономерности:

* Утверждение о том, что стратегия $\pi_2$ объективно эффективнее, является истинным.
* Получить несмещенную оценку эффективности $\pi_2$ на основе данных от $\pi_1$ физически невозможно, так как $\pi_1$ имеет нулевое покрытие для действия $A_1$ (оно никогда не выбиралось в исходных данных).
* Однако если все награды в среде строго положительны ($R \ge 0$), отсутствие полного покрытия не мешает нам рассчитать математически строгую *нижнюю границу* (lower bound) эффективности новой стратегии [56:54 - 57:33]. Пропущенные действия просто учитываются с нулевой массой, искусственно занижая итоговый скор. Если даже эта консервативная нижняя граница оказывается выше эффективности старой стратегии, новую политику можно смело внедрять.

Перенос концепции на траектории в RL
При оценке полноценных многошаговых процессов в обучении с подкреплением Importance Sampling оперирует не отдельными состояниями, а целыми траекториями $\tau$. Вес траектории рассчитывается как отношение вероятностей ее возникновения при целевой стратегии $\pi$ и поведенческой $\pi_B$. 

Математическая прелесть заключается в том, что при расписывании вероятностей траектории через произведение переходов:
$$P(\tau|\pi) = \prod_{t=1}^T P(s_{t+1}|s_t, a_t) \pi(a_t|s_t)$$
неизвестные и сложные функции динамики среды $P(s_{t+1}|s_t, a_t)$ полностью сокращаются в числителе и знаменателе! Нам не нужно знать законы физики или логику симулятора — достаточно знать вероятности выбора действий в наших собственных стратегиях. Этот метод для RL впервые предложили Дойна Прекуп (Doina Precup), Ричард Саттон (Richard Sutton) и Сатиндер Сингх (Satinder Singh) in 2000 году.

Для снижения дисперсии применяется пошаговая выборка по значимости (Per-Decision Importance Sampling): она учитывает, что будущие действия не могут влиять на уже полученные в прошлом награды. Тем не менее, для длинных горизонтов планирования дисперсия классического метода Монте-Карло растет экспоненциально, а доверительные интервалы по неравенству Хёфдинга (Hoeffding inequality) становятся чрезмерно широкими. Для борьбы с этим применяются методы двойной робастной оценки (Doubly Robust estimation), элегантно сочетающие марковские модели для снижения дисперсии и Importance Sampling для устранения смещения.

## 🛡️ Офлайн-оптимизация: пессимизм как главная стратегия безопасности
[[JUMP:1:05:33]]

Когда мы переходим от оценки готовой стратегии к ее оптимизации (поиску наилучшей политики), требования к покрытию данных становятся критическими. Если в реанимационном отделении врачи (поведенческая стратегия) активно применяли антибиотики и вентиляцию легких, но никогда не использовали вазопрессоры, мы физически не можем обучить алгоритм, использующий вазопрессоры [1:06:10 - 1:06:52].

До 2020 года большинство теоретических методов off-policy оптимизации требовали *глобального покрытия* — предполагалось, что абсолютно любая потенциальная стратегия имеет ненулевое покрытие в историческом датасете. Это достижимо, если исходные данные собирались случайным блужданием, но абсолютно нереализуемо в реальных продуктах, где данные генерируются упорядоченной работой врачей или учителей. Без специальной защиты стандартные алгоритмы будут уходить в области данных с нулевым покрытием и выдавать катастрофические решения.

### Концепция пессимизма в условиях неопределенности
Начиная с 2020 года парадигма изменилась в сторону подхода «делай лучшее из возможного с тем, что имеешь» (doing the best with what you've got). Ее фундаментом стал принцип **пессимизма в условиях неопределенности** (pessimism under uncertainty). Если алгоритм сталкивается с состоянием или действием, по которому у него нет достаточного объема статистических данных, он обязан заведомо занижать оценку награды в этой точке.

Для демонстрации уязвимости старых «оптимистичных» подходов используется тестовая среда Chain MDP. Из начальной точки $S_0$ агент под управлением поведенческой стратегии может перейти в цепочку состояний:

* Состояние $S_{10}$ имеет строго детерминированное вознаграждение 0.8. Это глобально оптимальный путь.
* Состояние $S_9$ имеет истинное среднее вознаграждение 0.5 (оно хуже). Однако из-за стохастичности среды в редких случаях там можно получить награду 1.0.

При конечной выборке данных возникает ситуация, когда алгоритм видит случайную единицу в $S_9$ и начинает считать этот путь более перспективным, чем стабильный $S_{10}$. Старые консервативные алгоритмы демонстрировали пугающее немонотонное поведение: при росте объема обучающей выборки до промежуточных значений они «интеллектуально путались», переключаясь на ошибочную стратегию $S_9$, и лишь при получении колоссальных массивов данных возвращались к оптимуму [1:11:09 - 1:12:01].

### Алгоритмическая фильтрация Беллмана
Современное решение этой проблемы изящно и просто. Вводится функция фильтрации (filtration function), оценивающая плотность данных для каждой пары состояние-действие. Если количество посещений пары превышает заданный порог безопасности, функция возвращает 1, если данных мало — 0. 

Этот фильтр интегрируется напрямую в оператор обновления Беллмана (Bellman backups):
$$Q(s, a) = R(s, a) + \gamma \sum_{s'} P(s'|s, a) \cdot \mathbb{I}(\text{достаточно данных}) \cdot V(s')$$
Если действие ведет в область пространства, где данных нет, значение будущей ценности обнуляется. Пессимистичный агент отказывается совершать шаги в неизвестность. При условии неотрицательности наград такая стратегия гарантирует математически строгую нижнюю границу ценности.

Данный подход лег в основу алгоритма MBSPO (Marginalized Behavior Supported Policy Optimization), разработанного в лаборатории автора лекции. Алгоритм обеспечивает строгие конечные гарантии (finite sample guarantees) даже в условиях аппроксимации функций нейросетями. В бенчмарке Hopper (среда D4RL) были зафиксированы следующие результаты:

* Стандартный off-policy алгоритм DDPG показал результаты хуже исходной поведенческой стратегии.
* Метод Behavior Cloning остался на уровне базовых данных.
* Алгоритмы BCQ (Скотта Фудзимото) и MBSPO (разработка авторов) продемонстрировали кратный рост эффективности, успешно извлекая скрытый потенциал из фиксированной выборки за счет управления неопределенностью.

В тот же год на конференции NeurIPS вышли еще две знаковые работы, закрепившие триумф пессимистического подхода. Команда Челси Финн (Chelsea Finn) представила model-based алгоритм, штрафующий неопределенность модели в процессе планирования. Одновременно с этим группа Сергея Левина (Sergey Levine) из Беркли опубликовала алгоритм Conservative Q-Learning (CQL), который на сегодняшний день является одним из самых популярных стандартов в индустрии офлайн-RL.

В финале лекции спикер упомянула публикацию в журнале *Science*, где принципы безопасного офлайн-RL были применены к симулятору доставки инсулина больным диабетом. Этот симулятор уникален тем, что он официально одобрен FDA (Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов США) для полной замены ранних стадий испытаний на животных. Точный учет неопределенности позволил алгоритму без единого реального риска для жизни быстро синтезировать новую стратегию введения инсулина, безопасность и превосходство которой над базовыми медицинскими протоколами были строго доказаны математически до этапа клинического развертывания.