# Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели

Источник: https://www.youtube.com/watch?v=PDIxDhA9Z6Y
Канал: Stanford Online
Опубликовано: 08.12.2025

---

В рамках курса Стэнфордского университета по глубокому обучению с подкреплением (Stanford CS224R) прошла лекция, посвященная завершению темы автономного обучения (offline RL) и разбору механизмов формирования функций вознаграждения. Преподаватель подробно объяснил, почему традиционные подходы к спецификации целей агентов часто приводят к неудачам, а также представил современные методы извлечения функций вознаграждения из человеческого контроля и фидбека. В центре внимания лекции оказались алгоритм консервативного Q-обучения (CQL) и технология обучения на основе человеческих предпочтений (RLHF), которая сегодня активно применяется для настройки больших языковых моделей.

## 🔄 Проблема сдвига распределения в оффлайн-обучении
[[JUMP:0:31]]

Проблема автономного обучения с подкреплением заключается в необходимости обучить эффективную стратегию $\pi_\theta$ исключительно на основе фиксированного набора данных, собранного ранее некоторой неизвестной поведенческой стратегией $ \pi_\beta $, без возможности какого-либо онлайн-взаимодействия со средой. Главным препятствием на этом пути становится так называемый сдвиг распределения (distribution shift) между историческими данными и оптимизируемой стратегией.

При попытке использовать классические алгоритмы обучения с подкреплением в таких условиях возникает опасный побочный эффект. Оптимизируя функцию полезности действия ($ Q $-функцию) для улучшения стратегии, алгоритм запрашивает значения ценности для тех действий, которые выбирает новая стратегия, но которых может вообще не быть в исходных данных. По мнению лектора, это неизбежно приводит к систематическому завышению оценок (overestimation) и делает $ Q $-функцию абсолютно неточной.

В качестве иллюстрации преподаватель привел ситуацию со случайной инициализацией $ Q $-функции. Если собранные данные покрывают лишь ограниченный диапазон действий для конкретного состояния, то при попытке максимизации алгоритм начнет выбирать действия далеко за пределами этого диапазона просто потому, что они случайно получили более высокое виртуальное значение ценности. Это фундаментальная уязвимость, которую необходимо устранять на уровне архитектуры алгоритмов.

## 📉 Алгоритм IQL: почему важно избегать излишнего везения
[[JUMP:2:07]]

Одним из способов решения проблемы является алгоритм Implicit Q-Learning (IQL), ключевая особенность которого — полный отказ от вычисления значений ценности для действий, выходящих за рамки имеющегося набора данных. IQL обучается исключительно на парах состояний и действий, которые физически присутствуют в датасете.

Если бы алгоритм использовал стандартные процедуры обновления, он бы просто аппроксимировал функции ценности для исходной поведенческой стратегии, что не позволило бы превзойти ее качество. Чтобы обойти это ограничение, IQL задействует асимметричную функцию потерь (asymmetric loss) при обучении функции ценности состояния $ V $, стремясь сдвинуть оценки в сторону наиболее успешных исходов. При этом для самой $ Q $-функции применяется стандартное среднеквадратичное отклонение ($ L2 $ loss).

Лектор подробно разъяснил математическую логику такого разделения, указав на существование двух источников изменчивости при развертывании стратегии в среде:

* Разнообразие доступных действий, которые может выбрать агент.
* Случайность самой среды, определяющая следующее состояние после выполнения конкретного действия.

Если применить асимметричную функцию потерь к $ Q $-функции, алгоритм начнет подстраиваться под те случайные переходы в будущие состояния, где агенту просто повезло. В результате, как подчеркивает лектор, модель будет оптимизировать не более качественную стратегию, а банальное везение среды, контролировать которое своими действиями агент принципиально не способен. Обычный $ L2 $ loss для $ Q $-функции позволяет усреднять случайность среды, в то время как асимметричный лосс для $ V $-функции помогает выделять лучшие действия.

## 🛡️ Консервативное Q-обучение (CQL): борьба с завышением оценок
[[JUMP:7:25]]

Альтернативным решением проблемы оффлайн-обучения выступает метод консервативного Q-обучения (Conservative Q-Learning, CQL). В отличие от IQL, данный алгоритм по-прежнему обращается к действиям из новой стратегии, но целенаправленно штрафует и искусственно занижает $ Q $-значения для любых вариантов, находящихся вне распределения обучающего датасета.

Математически целевая функция CQL модифицирует стандартный лосс критика. К нему добавляется регулярное математическое ожидание по состояниям из датасета и действиям из некоторого внешнего распределения $ \mu $, призванного покрыть те недокументированные шаги, которые может выбрать оптимизируемая стратегия. Чтобы гарантировать надежность, распределение $ \mu$ подбирается таким образом, чтобы максимизировать $ Q $-значения, выявляя самые уязвимые места.

Преподаватель отметил, что при достаточно большом весе данного регуляризатора $\alpha$ можно математически доказать, что выученная $ Q $-функция будет являться строгой нижней границей истинной функции ценности. Однако у первой версии алгоритма обнаружился существенный недостаток: она избыточно пессимистична, поскольку занижает оценки абсолютно для всех действий, включая те, по которым в датасете накоплено много реальной информации.

Для исправления этой проблемы в итоговый функционал CQL был добавлен компенсирующий член, который максимизирует значения ценности для явных пар состояний и действий из обучающей выборки. В результате алгоритм формирует точную оценку внутри доверительной зоны данных и резко занижает её за её пределами. Отвечая на вопрос из аудитории, лектор подтвердил, что гиперпараметр $\alpha$ напрямую управляет уровнем пессимизма модели: если исследователь уверен в способности нейросети к хорошей генерализации, значение $\alpha$ можно уменьшить.

Чтобы избавить инженеров от необходимости вручную настраивать и обучать явное распределение $ \mu $, авторы CQL предложили элегантное математическое решение. За счет добавления энтропийного регуляризатора, поощряющего разнообразие рассматриваемых действий, оптимальное распределение $\mu$ выражается в замкнутой форме через экспоненту от $ Q $-значений. Это позволило свернуть сложную минимаксную задачу в лаконичную форму логарифма суммы экспонент ($\log\sum\exp$) от $ Q $-значений, вычисляемую напрямую.

## 📊 Практическое применение CQL: опыт LinkedIn
[[JUMP:21:53]]

В качестве иллюстрации применимости оффлайн-алгоритмов в индустрии лектор привел реальный кейс инженеров деловой соцсети LinkedIn, которые внедрили CQL для оптимизации системы отправки email-уведомлений пользователям. Перед разработчиками стояла многофакторная задача:

* Максимизировать вовлеченность пользователей (клики по ссылкам).
* Минимизировать общее количество отправляемых писем, чтобы избежать раздражения аудитории (спама).
* Удерживать или повышать метрику недельной активности пользователей (Weekly Active Users).

Инженеры взяли за основу стандартный алгоритм Double DQN и интегрировали в него консервативные условия CQL, обучив модель на накопленных исторических логах платформы. Результаты масштабного онлайн-A/B-тестирования показали превосходство консервативного подхода над существовавшей базовой системой. Новая стратегия позволила достичь значимого увеличения кликабельности (CTR), снизить суммарный объем отправляемых нотификаций и зафиксировать небольшой прирост активности пользователей.

## 🎯 Обучение функциям вознаграждения: почему это сложно
[[JUMP:24:48]]

Во второй части лекции произошла смена фокуса в сторону фундаментального вопроса: откуда вообще берутся награды в обучении с подкреплением? Если в компьютерных играх можно использовать готовый счет на экране, то в реальных прикладных задачах среда не предоставляет прямых скалярных сигналов.

Преподаватель разобрал несколько наглядных примеров:

* **Робототехника:** Обучение робота переливанию воды из кувшина в чашку сопряжено со сложнейшим описанием физики процесса. Маленькие дети интуитивно понимают задачу благодаря чувству удовлетворения от выпитой воды, но роботу нужно алгоритмически задать параметры: где находится вода, пролилась ли она, сколько попало в цель.
* **Диалоговые системы:** Пользователи чат-ботов в процессе общения не выставляют системе оценки вроде «плюс 1» или «плюс 10» за каждую реплику.
* **Беспилотный транспорт:** Автономный автомобиль должен одновременно балансировать между соблюдением ПДД, комфортом пассажиров, скоростью движения и безопасностью.

Использование суррогатных метрик (прокси-наград), таких как показатели кликабельности, имеет массу ограничений и скрытых рисков. Полноценное подражание эксперту (imitation learning) тоже не всегда спасает: оно нацелено на слепое копирование действий, а не на достижение конкретного долгосрочного результата, и становится неэффективным, если у робота и человека разное число степеней свободы. Именно поэтому возникла необходимость в концепции обучения наградам (reward learning).

## 🤖 Классификаторы целей и состязательное обучение агентов
[[JUMP:28:24]]

Один из самых простых подходов к обучению наградам — использование примеров финальной цели и обучение бинарного классификатора успеха. Например, если необходимо научить робота убирать пенал за блокнот, ему демонстрируют несколько примеров правильного расположения объектов и серию неудачных конфигураций. Выходное значение вероятности успеха из обученного классификатора затем используется как вознаграждение для RL-агента.

Однако у такого наивного подхода есть две серьезные проблемы, которые выделили слушатели в аудитории и подтвердил лектор:

1.  **Разреженность сигнала (sparse reward):** Агент получает четкую оценку только в конечной точке и не понимает, как именно делать промежуточные шаги для прогресса.
2.  **Взлом классификатора (reward hacking):** Поскольку обученная политика способна посещать любые новые состояния, она быстро находит слепые зоны классификатора, где тот ошибочно выдает высокую вероятность успеха, хотя реальная задача не выполнена.

Для решения проблемы взлома лектор предложил использовать состязательный подход, концептуально схожий с CQL. Все новые состояния, которые агент посещает в процессе обучения, принудительно помечаются как отрицательные примеры (неудачи), после чего классификатор регулярно переобучается.

При реализации этого алгоритма критически важно строго соблюдать баланс классов 50/50 при формировании обучающих батчей. Лектор математически продемонстрировал, что без перебалансировки лавина ложноотрицательных примеров от агента просто заставит классификатор выдавать ноль для любых состояний. Благодаря же удержанию пропорции 50% на истинно положительные примеры, вероятность успеха для правильных действий всегда будет оставаться строго выше порогового значения 0.5, обеспечивая стабильный градиент обучения.

Этот фреймворк фактически представляет собой генеративно-состязательную сеть (GAN), где классификатор берет на себя роль дискриминатора, а RL-агент выступает в качестве генератора траекторий. В Стэнфорде протестировали данный метод на реальном робототехническом эксперименте: если прямое подражание по 50 демонстрациям давало всего 26% успешных выполнений задачи, то подключение состязательного RL-обучения с регуляризованным классификатором подняло эффективность до 62%.

## ⚖️ Обучение на основе предпочтений человека (RLHF)
[[JUMP:45:18]]

Более универсальным и масштабируемым подходом является обучение на основе попарных человеческих предпочтений (Preferences Learning). Выставление абсолютных оценок действиям агента — слишком тяжелая и субъективная задача для человека, в то время как выбор лучшего варианта из двух предложенных траекторий дается людям интуитивно легко.

Преподаватель продемонстрировал это на простейшей двумерной схеме, где агенту нужно проложить оптимальный маршрут от синей точки к звезде. При сравнении двух траекторий (розовой и синей) аудитория единогласно выбрала синюю как более короткую и эффективную.

Математическая модель таких предпочтений исходит из предположения, что если человек посчитал траекторию $\tau_w$ лучшей, чем $ \tau_l $, значит, сумма истинных наград вдоль выигравшего маршрута должна быть больше, чем у проигравшего. Вероятность предпочтения моделируется пропуском разницы суммарных наград через сигмоидную функцию $ \sigma $, которая сжимает любое значение в диапазон от 0 до 1. Обучение функции вознаграждения сводится к максимизации правдоподобия ответов оценщиков из датасета с помощью стандартного градиентного спуска.

Базовый алгоритм preference-обучения включает следующие шаги:

1.  Генерация или подбор набора траекторий.
2.  Выборка батчей из $k$ траекторий и их ранжирование человеком (что дает $k(k-1)/2$ уникальных пар сравнения).
3.  Прямой проход текущей модели награды для вычисления суммарного скора по каждой траектории.
4.  Вычисление градиента целевой функции и обновление параметров сети $\theta$.

Впервые этот подход доказал свою жизнеспособность в симуляторах: агенту потребовалось всего 900 последовательных запросов к человеку («какой вариант лучше?»), чтобы с нуля обучить виртуального робота выполнять красивое обратное сальто (backflip). Также алгоритм успешно зарекомендовал себя в беспилотном вождении для калибровки весов критических признаков — например, для подтверждения того, что предотвращение столкновений несопоставимо важнее точного удержания целевой скорости.

## 💬 Выравнивание языковых моделей и искусственный фидбек
[[JUMP:57:52]]

Сегодня обучение на основе преференций стало индустриальным стандартом для создания продвинутых чат-ботов, включая ChatGPT. Лектор описал классический трехэтапный пайплайн разработки современных больших языковых моделей (LLM):

1.  **Масштабное предобучение (Pre-training):** Модель поглощает колоссальные объемы неразмеченного текста из интернета, обучаясь просто предсказывать следующий токен. На этом этапе она накапливает много знаний, но абсолютно неуправляема и не склонна выполнять инструкции пользователя.
2.  **Подражательное дообучение (Supervised Fine-Tuning, SFT):** Модель тренируют на высококачественной базе ответов, написанных экспертами-людьми (фактически, imitation learning).
3.  **Обучение с подкреплением на основе отзывов людей (RLHF):** Финальная полировка ответов. Модели скармливается промпт (например, «как приготовить омлет?»), генерируются несколько вариантов ответов, а асессоры ранжируют их по качеству, безопасности и полезности. На этой основе обучается модель вознаграждения, которая затем направляет оптимизацию LLM с помощью алгоритма PPO.

В качестве перспективного развития индустрии лектор упомянул технологию RLAIF (Reinforcement Learning with AI Feedback) — обучение с подкреплением на основе фидбека искусственного интеллекта. Вместо людей-оценщиков для фильтрации токсичного или опасного контента используется более мощная и строгая языковая модель. Ключевой инсайт данного подхода заключается в том, что качественная критика и оценка готового текста даются нейросетям значительно легче, чем генерация аналогичного контента с нуля.

В финале лекции преподаватель призвал студентов смотреть шире привычных рамок и исследовать альтернативные каналы коммуникации с ИИ (например, вербальные подсказки в процессе работы), а также область автономного обучения без учителя (Unsupervised RL). В таких системах агенты движимы внутренним любопытством и сами генерируют для себя цели в формате состязательной игры, где одна нейросеть ставит сложную задачу, а вторая пытается ее решить.