Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 10: RL for LLM Reasoning

Лекция Стэнфордского курса CS224R, посвященная обучению с подкреплением (RL) для рассуждений больших языковых моделей, раскрывает ключевые методологии преодоления ограничений традиционного обучения. Лектор анализирует переход от простого предсказания следующего токена к сложным системам оценки промежуточных шагов, кульминацией которых стало появление современных «думающих» моделей. В материале подробно рассматриваются математические основы рассуждений как марковского процесса принятия решений, методы фильтрации ложных шагов и эволюция алгоритмов от классического оффлайн-RL до GRPO.

🧱 Кризис предсказания следующего токена и ценность рассуждений 0:05

Традиционная парадигма обучения базовых языковых моделей (LLM) опирается на принцип предсказания следующего токена (Next Token Prediction). Модель обучается на массивах текстовых данных с использованием функции потерь отрицательного правдоподобия (Negative Log-Likelihood Loss), сопоставляя токенизированный вопрос с токенизированным эталонным ответом. В контексте решения сложных технических, математических или программных задач этот подход сталкивается с фундаментальным математическим ограничением.

Как утверждает лектор, обученная модель лишь приближенно аппроксимирует истинное распределение идеальных решений. Величина ошибки $p_\theta - p^*$ напрямую зависит от объема доступных качественных данных.

По оценкам, приведенным в лекции, при сохранении текущих подходов к сбору высококачественных обучающих выборок из интернета, человечество полностью исчерпает их запасы к 2028 году. Это делает невозможным достижение уровня экспертных человеческих рассуждений исключительно за счет стандартного обучения с учителем (Supervised Fine-Tuning, SFT). Аналогичный дефицит данных наблюдается в робототехнике и воплощенном ИИ (Embodied AI).

Иллюстрацией неэффективности классического SFT является поведение продвинутых моделей при решении нестандартных олимпиадных задач, например, из Международной математической олимпиады (IMO 2021). Модель генерирует текст, который выглядит крайне убедительно и детально имитирует стиль человеческого эксперта. Однако при детальном анализе выясняется, что ИИ упускает внутреннюю логику доказательства. Модель пытается оценивать отдельные члены математического выражения вместо анализа всей суммы целиком, совершает логическую ошибку, не замечает ее и директивно утверждает неверный финальный ответ.

По мнению докладчика, именно эту неспособность к самокоррекции и логическую поверхностность призвано исправить обучение с подкреплением (RL). Эволюцию этой технологии можно разделить на два этапа: классические методы, существовавшие до появления семейства моделей DeepSeek-R1 в январе 2025 года, и современные подходы к тренировке «думающих» моделей (таких как OpenAI o1, Gemini thinking и Claude Sonnet thinking).

🕹️ Рассуждения как марковский процесс принятия решений (MDP) 8:23

[Image of LLM reasoning modeled as a Markov Decision Process]

Для применения аппарата обучения с подкреплением процесс генерации рассуждений моделью необходимо формализовать. В рамках лекции эта задача представляется в виде Марковского процесса принятия решений (Markov Decision Process, MDP). Компоненты этого процесса распределяются следующим образом:

Начальное состояние ($S_0$): Строка токенов, составляющая формулировку исходной задачи или вопроса.
Действия ($A_t$): Отдельные шаги решения, генерируемые моделью в текстовом формате. В отличие от классических задач непрерывного управления с фиксированной размерностью векторов, пространство действий здесь дискретно, имеет переменную длину токенов и теоретически бесконечно.
Переход между состояниями: Процесс детерминирован и не зависит от внешней среды. Новое состояние ($S_1$) формируется как простое конкатенирование (слияние) предыдущего состояния ($S_0$) и предпринятого действия ($A_0$). Каждое последующее состояние включает в себя всю историю генерации.
Функция награды: Модель оперирует в условиях разреженной награды (Sparse Reward). Она получает $+1$, если финальный сгенерированный ответ совпадает с эталонным численным значением или результатом, и $0$ во всех остальных случаях.

Лектор подчеркивает, что данная математическая модель вводится с допущением о наличии четкого детерминированного ответа (как в конкурсных задачах по математике или кодингу). Адекватных методов автоматической оценки для задач, где ответом является развернутое математическое доказательство без финального числа, сообщество на текущий момент не выработало. Важнейшим риском такой структуры награды является вероятность получения правильного ответа с помощью абсолютно неверных промежуточных рассуждений.

🔄 Отбор лучших: метод Rejection Fine Tuning (RFT) 12:15

Для исследования эффективности различных RL-методов при масштабировании данных лектор ссылается на собственное исследование, представленное на конференции NeurIPS 2024. В ходе экспериментов оценивалось, как ведут себя модели при изменении объема тренировочных пар «задача-решение» при поддержке верификации ответов через оракул. Базовым методом улучшения модели наряду с SFT выступает тонкая настройка с отклонением (Rejection Fine Tuning, RFT).

Алгоритм RFT функционирует по следующему циклу:

Из обучающей выборки извлекается вопрос $x$ (начальное состояние).
Текущая обучаемая модель $\pi_\theta$ генерирует множество альтернативных вариантов траекторий решения ($Y_1, Y_2 \dots Y_n$).
Каждая траектория оценивается функцией награды путем сверки финального результата с ответом оракула $y^*$.
Формируется отфильтрованный набор данных $\tilde{S}$, куда включаются исключительно те цепочки рассуждений, которые привели к правильному ответу (награда равна $+1$).
Модель $\pi_\theta$ проходит стандартное обучение с учителем (поведенческое клонирование) на базе этого отфильтрованного набора успешных сессий.

Главным преимуществом RFT является отсутствие необходимости в написанных человеком эталонных рассуждениях — модель учится на своих собственных удачных генерациях (On-Policy rollouts). Эмпирические замеры на бенчмарках GSM8K и MATH (с использованием модели DeepSeek V2) показали, что RFT демонстрирует двукратное преимущество в эффективности данных по сравнению с обычным SFT. Метод позволяет достичь аналогичного уровня снижения тестовой ошибки, требуя в два раза меньше уникальных вопросов и человеческих аннотаций.

Однако бесконечное масштабирование RFT за счет генерации сотен решений на один и тот же пул вопросов имеет критический лимит. При превышении определенного порога количества успешных цепочек на один вопрос точность модели на тестовом наборе начинает падать. По мнению исследователей, избыточное обучение на ограниченном числе начальных состояний приводит к жесткому переобучению и ухудшению генерализации.

🔍 Ложные шаги и проблема распределения наград (Credit Assignment) 27:41

[Image of Step-level credit assignment and advantage estimation in LLM rollouts]

Причина деградации качества при избыточном RFT-обучении кроется в феномене ложных шагов (Spurious Steps). В процессе массовой генерации вариантов решений модель неизбежно создает цепочки, содержащие грубые вычислительные или логические ошибки, но случайно приводящие к верному финальному числу.

В качестве примера из датасета GSM8K лектор приводит случай, когда модель для нахождения итоговой суммы производит ошибочное умножение $100 \times 2 = 200$, но в следующей же строке внезапно совершает обратное действие $100 / 2 = 50$, выходя на правильный ответ. Этот лишний, ошибочный шаг фиксируется алгоритмом RFT как успешный. Модель принудительно обучается имитировать данную девиацию, что в теории имитационного обучения соотносится с проблемой «причинной путаницы» (Causal Confusion). Модель запоминает ложные ассоциации, которые не работают на новых тестовых задачах.

Решением этой проблемы в RL является точечное распределение награды (Credit Assignment) — вычисление полезности каждого конкретного шага в цепочке. Для этого применяется концепция ценности состояний (Value Functions) и функции преимущества (Advantage Functions).

Чтобы определить качество промежуточного шага, берется сгенерированный префикс решения, и от этой точки запускается серия альтернативных завершений (rollouts) с помощью вспомогательной политики. Если после конкретного шага большинство случайных завершений приводят к успеху, шаг признается качественным. Если же после выполнения шага все последующие траектории стабильно завершаются ошибкой, этот изолированный шаг фиксируется как деструктивный, даже если в исходной цепочке он случайно привел к успеху.

Математически функция ценности действия $Q$ в данной среде (при факторе дисконтирования $\gamma = 1$ и награде только в конце) выражает математическое ожидание успешного завершения задачи из текущего состояния:

$$Q^{\pi}(s, a) = \mathbb{E}_{\pi} [R \mid S_0=s, A_0=a]$$

В детерминированном MDP рассуждений преимущество (Advantage) шага определяется как разность между $Q-значением$ текущего префикса и $Q-значением$ префикса на предыдущем шаге:

$$A(s, a) = Q(s_i) - Q(s_{i-1})$$

Положительное значение преимущества маркирует шаг как полезный, отрицательное — как ложный или избыточный.

⚖️ Оффлайн-RL и оптимизация предпочтений (DPO) 44:26

Полученные оценки преимуществ можно интегрировать в процесс обучения двумя путями. Первый — фильтрация по преимуществу (Advantage Filtering), когда из обучающей выборки отсекаются шаги с негативным преимуществом (даже из успешных решений), а высокоэффективные шаги из неудачных сессий, напротив, добавляются в тренировочный пул,