Стэнфордский курс CS234: принципы офлайн-RL и преодоление неопределенности

В лекции из курса Стэнфордского университета CS234 рассматриваются продвинутые методы офлайн-обучения с подкреплением (Offline RL) и оценки стратегий по фиксированным наборам данных. Преподаватель подробно разбирает ограничения классических подходов, проблему мисспицификации моделей и концепцию пессимизма в условиях неопределенности. На практических примерах из медицины и образования демонстрируется, как алгоритмы могут безопасно превосходить человеческий опыт без сбора новых данных.

🧠 От RLHF к DPO: как выйти за пределы экспертных демонстраций 0:05

Лекция начинается с разбора фундаментальных различий между алгоритмами обучения на основе человеческих предпочтений — RLHF (Reinforcement Learning from Human Feedback) и DPO (Direct Preference Optimization). В ходе экспресс-опроса аудитории проясняется распространенное заблуждение: вопреки мнению многих студентов, обе эти стратегии работают с функцией вознаграждения по-разному. Алгоритм RLHF строит и обучает явное параметрическое представление функции вознаграждения, в то время как DPO математически инвертирует эту зависимость, что позволяет напрямую проводить оптимизацию стратегии (policy learning) без промежуточного шага явного моделирования наград.

Выход за рамки обучающей выборки

Важным теоретическим аспектом является вопрос о том, ограничена ли эффективность этих алгоритмов качеством лучших примеров в наборе данных парных предпочтений. Ответ профессора однозначен — это утверждение ложно. Благодаря использованию аппроксимации функций нейросетями, модель способна совершать шаги оптимизации, которые ведут к получению результатов, превосходящих исходные демонстрации.

В процессе RLHF собранная информация применяется для построения качественной модели вознаграждения. Если эта модель обладает хорошей способностью к экстраполяции и генерализации за пределы имеющихся образцов, последующее применение алгоритма PPO (Proximal Policy Optimization) позволяет обучить стратегию, превосходящую демонстрации. По мнению автора лекции, наглядным примером этого феномена является ChatGPT:

Сначала языковая модель настраивалась с помощью контролируемого обучения (Supervised Fine-Tuning, SFT).
Затем сгенерированные варианты ответов демонстрировались людям для формирования базы парных предпочтений.
На основе этих данных обучалась модель наград, после чего оптимизация через PPO позволила превзойти качество исходных человеческих демонстраций.

Как PPO, так и DPO используют опорную стратегию (reference policy). Главный вызов здесь заключается в поиске баланса: как далеко алгоритм может экстраполировать или интерполировать данные, и в каких случаях необходимо жестко ограничивать изменения стратегии в пространстве решений, чтобы не попасть в области пространства состояний с непредсказуемо низким качеством работы. Этот принцип контролируемой генерализации ранее уже встречался в имитационном обучении (Imitation Learning), а также в архитектурах PPO и DPO.

🎮 Проект Refraction: превосходя результаты экспертов в образовании 5:47

Переходя от обучения на основе человеческих предпочтений к общей концепции извлечения знаний из исторических данных, профессор задается вопросом: можно ли систематически превосходить результаты стандартного имитационного обучения? В качестве примера приводится область образования и здравоохранения, где решения традиционно принимаются людьми или автоматизированными системами, а результаты фиксируются в медицинских картах или логах взаимодействия. Автор отмечает, что в американской системе здравоохранения огромные финансовые затраты не всегда конвертируются в высокое качество результатов, поэтому оптимизация последовательностей медицинских решений через RL имеет колоссальный потенциал.

Опыт геймификации математики

Около десяти лет назад исследовательская лаборатория автора лекции начала сотрудничество с профессором Зораном Поповичем (Zoran Popovic) из Университета Вашингтона. Его команда разработала образовательную игру Refraction, направленную на обучение детей дробям — одной из самых сложных концепций в школьной математике. По сюжету игроки управляют космическим кораблем, заправляя его путем разделения лазерных лучей на дробные части. К моменту исследования в игру сыграло около 500 000 детей.

Перед учеными стояла задача сделать игровой процесс адаптивным и персонализированным. На основе действий ребенка система должна была динамически выбирать следующее игровое задание. Пространство состояний включало богатый контекст:

Время, затраченное на прохождение текущего уровня.
Координаты размещения лазерных лучей на экране.
Характерные последовательности ошибок, совершаемых учеником.

Результаты оптимизации вовлечения

В распоряжении исследователей был массив данных от 11 000 учеников, которые получали задания в случайном порядке. Изначально человеческий дизайнер спроектировал фиксированную траекторию игры, но ее оптимальность вызывала сомнения. Игра распространялась на платформе BrainPOP, где типичной проблемой было быстрое выгорание аудитории — дети включали игру, но вскоре бросали ее. Поскольку удержание (persistence) напрямую коррелировало с обучением, целью RL-агента стало максимизирование количества пройденных уровней.

Применение методов офлайн-обучения с подкреплением показало выдающиеся результаты:

Разработанная адаптивная стратегия позволила увеличить метрику удержания детей в игре на 30% по сравнению с методом клонирования поведения (Behavior Cloning).
Этот успех доказывает, что использование естественной вариативности в исторических данных позволяет находить новые политики управления, которые существенно превосходят экспертный человеческий дизайн.

Отвечая на вопрос из аудитории о равномерности этого прироста, профессор сослалась на научную публикацию своей лаборатории, вышедшую в январе. Анализ показал, что наибольший позитивный эффект от внедрения RL-стратегии ощутили самые слабые ученики (lowest performers). По мнению исследователей, это критически важно, так как большинство адаптивных систем зачастую лишь увеличивают образовательное неравенство, принося пользу только тем, кто и так опережает программу. Для выявления таких эффектов применяется специализированный анализ гетерогенных эффектов лечения (heterogeneous treatment effect analysis). В частности, в другой игре на платформе BrainPOP — Battleship Numberline — было экспериментально доказано, что визуальное разнообразие (размер кораблей и их оформление) критически влияет на вовлеченность детей.

🏥 Оценка стратегий по историческим данным: ловушки модельного подхода 14:26

Вторым масштабным примером использования офлайн-RL стала совместная работа с Финале Доши-Велез (Finale Doshi-Velez) из Гарварда, посвященная оптимизации лечения артериальной гипертензии. Исследователи использовали знаменитый открытый датасет MIMIC (разработка MIT и Mass General Hospital), аккумулирующий миллионы электронных медицинских записей. Применив алгоритм под названием Popcorn, авторы смогли синтезировать медицинские стратегии, которые продемонстрировали значительно более высокую теоретическую эффективность по сравнению с плоской базовой линией реальной врачебной практики.

Проблема причинно-следственного вывода

Описанный подход называется офлайн-, пакетным (batch) или контрфактуальным (counterfactual) обучением с подкреплением. Термин «контрфактуальный» подчеркивает, что алгоритм пытается оценить или обучить стратегии, которые физически не проверялись в процессе сбора данных. Нам доступен фиксированный набор из $n$ траекторий, состоящих из последовательностей состояний, действий и наград.

Главная сложность заключается в том, что данные подвержены цензурированию (censored data): для конкретного пациента мы никогда не узнаем, что бы произошло, если бы ему назначили альтернативный препарат. По мнению спикера, это классическое проявление фундаментальной проблемы причинно-следственного вывода (fundamental problem of causal inference).

Студенты часто задаются вопросом, почему нельзя использовать стандартные алгоритмы вроде Q-learning или DQN, известные с самого зарождения RL. Проблема кроется в феномене «смертельной триады» (deadly triad), когда одновременное сочетание трех факторов разрушает стабильность обучения:

Бутстрэпинг (обновление оценок на основе других оценок).
Аппроксимация функций (использование нейросетей).
Обучение со сторонней стратегией (off-policy learning).

В исследовании Скотта Фудзимото (Scott Fujimoto) было показано, что стандартный алгоритм Deep Q-learning (DQN) на фиксированных данных работает не лучше базовой поведенческой стратегии, а алгоритм DPG вовсе терпит крах. Однако метод BCQ (Behavior Constrained Q-learning), разработанный специально для офлайн-данных, продемонстрировал существенное превосходство за счет жесткого ограничения отклонений от исторической выборки.

Иллюзия точности в симуляторах

Профессор Фил Томас (Phil Thomas) из UMass Amherst в рамках своей постдок-работы совместно с компанией Adobe исследовал sample-efficient методы оценки политик на массивах из 10–20 миллионов траекторий. Термином «поведенческая стратегия» (behavior policy) в таких задачах всегда называют ту политику, которая изначально применялась для сбора имеющегося датасета.

Самый очевидный способ оценить новую стратегию — построить на основе данных явную модель среды (Model-Based RL): выучить функции переходов состояний и модель наград. Полученную модель можно использовать как симулятор мира для запуска динамического программирования, Q-learning или методов Монте-Карло.

Однако реальный эксперимент с игрой Refraction выявил опасный парадокс модельзависимого подхода:

Ученые последовательно усложняли представление пространства состояний. Согласно кросс-валидации на отложенной выборке, качество предсказания следующего состояния (log-likelihood) монотонно росло — модель действительно становилась точнее.
Затем из этой точной модели с помощью динамического программирования извлекалась оптимальная стратегия $\pi^*$.
Но когда эту стратегию развернули в реальном мире и измерили ее истинную ценность с помощью несмещенного оценщика, ее эффективность оказалась катастрофически низкой. Чем сложнее и «точнее» (по метрике правдоподобия) был симулятор, тем хуже работала полученная из него стратегия в реальности.

Причина этого явления — мисспицификация модели (model misspecification). Даже если у вас есть бесконечный объем данных, абстрактная модель (например, марковская цепь на 20 состояний) принципиально не способна полностью описать все нюансы человеческого мышления и обучения. Симулятор выдает завышенную внутреннюю оценку эффективности стратегии $\hat{V}(\hat{\pi}^*)$, которая не имеет ничего общего с реальностью.

Для решения этой проблемы в совместной работе с Омером Готтесманом (Omer Gottesman) было предложено изменить функцию потерь при обучении симулятора. Вместо минимизации ошибки на распределении поведенческой стратегии, ошибки искусственно перевзвешиваются в пользу тех пар состояние-действие, которые с наибольшей вероятностью будут посещены целевой (новой) стратегией в будущем.

📊 Модель-фри оценка: алгоритм Fitted Q Evaluation и его границы 31:34

Альтернативой симуляторам выступают свободные от моделей (model-free) методы. Одним из базовых алгоритмов является Fitted Q Evaluation (FQE). Он структурно похож на Deep Q-learning, но имеет одно фундаментальное отличие: вместо поиска максимума (argmax или max) по действиям для обновления целевых значений, алгоритм строго фиксирует действия, которые предписывает конкретная оцениваемая стратегия $\pi$.

Инициализировав нейросеть $Q$, алгоритм итеративно рассчитывает целевые значения (targets): $$y_i = r_i + \gamma Q(s_{i+1}, \pi(s_{i+1}))$$ и минимизирует среднеквадратичную ошибку по историческим кортежам данных. Этот метод уходит корнями в алгоритм Fitted Q Iteration (FQI), предложенный в районе 2005 года.

Математические гарантии точности оценки FQE зависят от нескольких критических параметров:

Размера выборки $n$ и желаемой точности ошибки $\epsilon$.
Фактора дисконтирования $\gamma$, определяющего долгосрочность горизонта планирования.
Коэффициента концентрации (concentratability coefficient).

Коэффициент концентрации отражает степень расхождения (дивергенции) между многомерными распределениями состояний и действий в обучающем датасете и распределениями, которые возникнут при развертывании целевой стратегии. Главные уязвимости FQE — он по-прежнему жестко опирается на марковское предположение (Markov assumption) и требует условия реализуемости (realizability), то есть архитектура нейросети должна быть способна физически выразить истинную функцию $Q$. Если реальная функция нелинейна, а мы пытаемся аппроксимировать ее линейной моделью с двумя параметрами, ошибка останется огромной даже при бесконечном объеме данных.

⚖️ Выборка по значимости (Importance Sampling): математическое изящество без марковских оков 38:01

Для обхода ограничений, связанных с неверной спецификацией моделей и марковскими допущениями, применяется классический статистический метод — выборка по значимости (Importance Sampling). Этот подход позволяет использовать траектории, сгенерированные историческим распределением $Q(x)$, для вычисления точного математического ожидания награды для целевого распределения $P(x)$, из которого у нас нет ни одного реального сэмпла.

Математический трюк заключается в одновременном умножении и делении на плотность распределения $Q(x)$: $$\mathbb{E}{x \sim P}[R(x)] = \sum P(x)R(x) = \sum Q(x) \frac{P(x)}{Q(x)} R(x) = \mathbb{E}{x \sim Q}\left[\frac{P(x)}{Q(x)}R(x)\right]$$ На практике это позволяет аппроксимировать истинное значение через взвешенную сумму имеющихся сэмплов: $$\frac{1}{n} \sum_{i=1}^n \frac{P(x_i)}{Q(x_i)} R(x_i)$$ Если какое-то состояние очень вероятно при стратегии $Q$, но редко встречается при $P$, его вес занижается; если наоборот — сэмпл аппроксимируется с повышающим коэффициентом. Оценка является абсолютно несмещенной.

Две жесткие аксиомы метода

Для корректной работы Importance Sampling должны соблюдаться два строгих условия:

Наличие покрытия (Coverage): Вероятность совершения действия в любом посещаемом состоянии под управлением целевой стратегии должна быть строго равна нулю, если она равна нулю в поведенческой стратегии ($Q(x) > 0$ для всех $x$, где $P(x) > 0$). Нельзя оценить стратегию походов в кинотеатры, если в вашем историческом датасете агент ходил только в рестораны и кофейни.
Отсутствие скрытых вмешивающихся факторов (No hidden confounding): Все признаки и контексты, на основании которых человек или система принимали решения в прошлом, должны быть зафиксированы в данных.

Проблема скрытого конфаундинга чрезвычайно опасна в медицине. Если в электронных картах зафиксировано, что группа тяжелых пациентов была отправлена на операцию и часть из них скончалась, а более легких больных лечили медикаментозно, и они выжили, то без учета скрытого признака первичной тяжести состояния Importance Sampling выдаст ложный вывод о вреде хирургического вмешательства [44:48 - 45:39].

Профессор привела пример из собственной практики исследования влияния генеративного ИИ на образование. Студентам предоставили опциональный доступ к GPT-4. Часть учащихся активно пользовалась инструментом, часть проигнорировала его. При попытке оценить влияние ИИ на экзаменационные оценки возникает скрытый конфаундинг: студенты, решившие использовать GPT-4, исходно обладали иной мотивацией и паттернами обучения, что напрямую влияет на их оценки независимо от самого ИИ. В симуляторах вроде MuJoCo такой проблемы нет, так как исследователь полностью контролирует генерацию данных.

Разбор математической задачи

На лекции был разобран показательный пример с тремя доступными действиями ($A_1, A_2, A_3$):

Действие $A_1$ — это распределение Бернулли, которое дает награду 100 с вероятностью 0.02 (матожидание наград = 2).
Действие $A_2$ дает награду 2 с вероятностью 0.55 (матожидание = 1.1).
Действие $A_3$ дает награду 1 с вероятностью 0.5 (матожидание = 0.5) [53:45 - 54:27].

Поведенческая стратегия $\pi_1$ выбирает действие $A_3$ с вероятностью 0.8, а $A_2$ — с вероятностью 0.2 (общее матожидание $\approx 0.62$). Новая оцениваемая стратегия $\pi_2$ выбирает $A_2$ с вероятностью 0.5 и $A_1$ с вероятностью 0.5 (общее матожидание $\approx 1.55$).

Анализ этой задачи выявил важные закономерности:

Утверждение о том, что стратегия $\pi_2$ объективно эффективнее, является истинным.
Получить несмещенную оценку эффективности $\pi_2$ на основе данных от $\pi_1$ физически невозможно, так как $\pi_1$ имеет нулевое покрытие для действия $A_1$ (оно никогда не выбиралось в исходных данных).
Однако если все награды в среде строго положительны ($R \ge 0$), отсутствие полного покрытия не мешает нам рассчитать математически строгую нижнюю границу (lower bound) эффективности новой стратегии [56:54 - 57:33]. Пропущенные действия просто учитываются с нулевой массой, искусственно занижая итоговый скор. Если даже эта консервативная нижняя граница оказывается выше эффективности старой стратегии, новую политику можно смело внедрять.

Перенос концепции на траектории в RL При оценке полноценных многошаговых процессов в обучении с подкреплением Importance Sampling оперирует не отдельными состояниями, а целыми траекториями $\tau$. Вес траектории рассчитывается как отношение вероятностей ее возникновения при целевой стратегии $\pi$ и поведенческой $\pi_B$.

Математическая прелесть заключается в том, что при расписывании вероятностей траектории через произведение переходов: $$P(\tau|\pi) = \prod_{t=1}^T P(s_{t+1}|s_t, a_t) \pi(a_t|s_t)$$ неизвестные и сложные функции динамики среды $P(s_{t+1}|s_t, a_t)$ полностью сокращаются в числителе и знаменателе! Нам не нужно знать законы физики или логику симулятора — достаточно знать вероятности выбора действий в наших собственных стратегиях. Этот метод для RL впервые предложили Дойна Прекуп (Doina Precup), Ричард Саттон (Richard Sutton) и Сатиндер Сингх (Satinder Singh) in 2000 году.

Для снижения дисперсии применяется пошаговая выборка по значимости (Per-Decision Importance Sampling): она учитывает, что будущие действия не могут влиять на уже полученные в прошлом награды. Тем не менее, для длинных горизонтов планирования дисперсия классического метода Монте-Карло растет экспоненциально, а доверительные интервалы по неравенству Хёфдинга (Hoeffding inequality) становятся чрезмерно широкими. Для борьбы с этим применяются методы двойной робастной оценки (Doubly Robust estimation), элегантно сочетающие марковские модели для снижения дисперсии и Importance Sampling для устранения смещения.

🛡️ Офлайн-оптимизация: пессимизм как главная стратегия безопасности 1:05:33

Когда мы переходим от оценки готовой стратегии к ее оптимизации (поиску наилучшей политики), требования к покрытию данных становятся критическими. Если в реанимационном отделении врачи (поведенческая стратегия) активно применяли антибиотики и вентиляцию легких, но никогда не использовали вазопрессоры, мы физически не можем обучить алгоритм, использующий вазопрессоры [1:06:10 - 1:06:52].

До 2020 года большинство теоретических методов off-policy оптимизации требовали глобального покрытия — предполагалось, что абсолютно любая потенциальная стратегия имеет ненулевое покрытие в историческом датасете. Это достижимо, если исходные данные собирались случайным блужданием, но абсолютно нереализуемо в реальных продуктах, где данные генерируются упорядоченной работой врачей или учителей. Без специальной защиты стандартные алгоритмы будут уходить в области данных с нулевым покрытием и выдавать катастрофические решения.

Концепция пессимизма в условиях неопределенности

Начиная с 2020 года парадигма изменилась в сторону подхода «делай лучшее из возможного с тем, что имеешь» (doing the best with what you've got). Ее фундаментом стал принцип пессимизма в условиях неопределенности (pessimism under uncertainty). Если алгоритм сталкивается с состоянием или действием, по которому у него нет достаточного объема статистических данных, он обязан заведомо занижать оценку награды в этой точке.

Для демонстрации уязвимости старых «оптимистичных» подходов используется тестовая среда Chain MDP. Из начальной точки $S_0$ агент под управлением поведенческой стратегии может перейти в цепочку состояний:

Состояние $S_{10}$ имеет строго детерминированное вознаграждение 0.8. Это глобально оптимальный путь.
Состояние $S_9$ имеет истинное среднее вознаграждение 0.5 (оно хуже). Однако из-за стохастичности среды в редких случаях там можно получить награду 1.0.

При конечной выборке данных возникает ситуация, когда алгоритм видит случайную единицу в $S_9$ и начинает считать этот путь более перспективным, чем стабильный $S_{10}$. Старые консервативные алгоритмы демонстрировали пугающее немонотонное поведение: при росте объема обучающей выборки до промежуточных значений они «интеллектуально путались», переключаясь на ошибочную стратегию $S_9$, и лишь при получении колоссальных массивов данных возвращались к оптимуму [1:11:09 - 1:12:01].

Алгоритмическая фильтрация Беллмана

Современное решение этой проблемы изящно и просто. Вводится функция фильтрации (filtration function), оценивающая плотность данных для каждой пары состояние-действие. Если количество посещений пары превышает заданный порог безопасности, функция возвращает 1, если данных мало — 0.

Этот фильтр интегрируется напрямую в оператор обновления Беллмана (Bellman backups): $$Q(s, a) = R(s, a) + \gamma \sum_{s'} P(s'|s, a) \cdot \mathbb{I}(\text{достаточно данных}) \cdot V(s')$$ Если действие ведет в область пространства, где данных нет, значение будущей ценности обнуляется. Пессимистичный агент отказывается совершать шаги в неизвестность. При условии неотрицательности наград такая стратегия гарантирует математически строгую нижнюю границу ценности.

Данный подход лег в основу алгоритма MBSPO (Marginalized Behavior Supported Policy Optimization), разработанного в лаборатории автора лекции. Алгоритм обеспечивает строгие конечные гарантии (finite sample guarantees) даже в условиях аппроксимации функций нейросетями. В бенчмарке Hopper (среда D4RL) были зафиксированы следующие результаты:

Стандартный off-policy алгоритм DDPG показал результаты хуже исходной поведенческой стратегии.
Метод Behavior Cloning остался на уровне базовых данных.
Алгоритмы BCQ (Скотта Фудзимото) и MBSPO (разработка авторов) продемонстрировали кратный рост эффективности, успешно извлекая скрытый потенциал из фиксированной выборки за счет управления неопределенностью.

В тот же год на конференции NeurIPS вышли еще две знаковые работы, закрепившие триумф пессимистического подхода. Команда Челси Финн (Chelsea Finn) представила model-based алгоритм, штрафующий неопределенность модели в процессе планирования. Одновременно с этим группа Сергея Левина (Sergey Levine) из Беркли опубликовала алгоритм Conservative Q-Learning (CQL), который на сегодняшний день является одним из самых популярных стандартов в индустрии офлайн-RL.

В финале лекции спикер упомянула публикацию в журнале Science, где принципы безопасного офлайн-RL были применены к симулятору доставки инсулина больным диабетом. Этот симулятор уникален тем, что он официально одобрен FDA (Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов США) для полной замены ранних стадий испытаний на животных. Точный учет неопределенности позволил алгоритму без единого реального риска для жизни быстро синтезировать новую стратегию введения инсулина, безопасность и превосходство которой над базовыми медицинскими протоколами были строго доказаны математически до этапа клинического развертывания.