Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

🚀 Эволюция RL в языковых моделях: от DPO до GRPO 12:18

Современные языковые модели, ориентированные на глубокое рассуждение (reasoning models), такие как OpenAI o1, DeepSeek-R1, Kimi k1.5 и Qwen 3, совершили прорыв благодаря переходу от обучения на человеческих предпочтениях (RLHF) к обучению с подкреплением на проверяемых наградах (verifiable rewards). Этот подход позволяет использовать мощь алгоритмов RL, известных по успехам в AlphaGo или AlphaFold, где истинная награда (правильность ответа в математике или программировании) известна и вычисляется быстро.

🛠 Проблемы классического RLHF и подъем DPO 0:30

Обучение с подкреплением на основе человеческих предпочтений (RLHF) стало «золотым стандартом» для выравнивания (alignment) моделей. Однако оно имеет ряд критических ограничений:

Переоптимизация (Overoptimization): Чрезмерная оптимизация модели под «прокси-награду» (модель, обучаемую имитировать оценки людей) приводит к тому, что качество ответов начинает деградировать, так как модель «взламывает» метрику, а не обучается лучшему решению.
Отсутствие калибровки: В отличие от вероятностного обучения (SFT), RLHF-модели часто демонстрируют чрезмерную уверенность (overconfidence), что делает их менее надежными как вероятностные системы.
Сложность DPO: Алгоритм DPO (Direct Preference Optimization) долгое время доминировал, так как позволял оптимизировать политику модели через супервизорное обучение на парах предпочтений, обходя необходимость сложного обучения функции ценности (value function).
Вариативность результатов: Исследования AI2 по проекту Tulu 3 показали, что выводы о превосходстве PPO или DPO часто зависят от конкретной среды и способа SFT, поэтому ни один результат нельзя считать «истиной в последней инстанции».

🏗 GRPO: простота против сложности 28:48

Алгоритм GRPO (Group Relative Policy Optimization) стал ответом на сложность PPO (Proximal Policy Optimization). Его главная цель — сделать процесс обучения эффективнее и проще.

Устранение функции ценности: В отличие от PPO, который требует содержания громоздкой функции ценности (занимающей почти столько же памяти, сколько сама LLM), GRPO обходится без неё.
Групповое нормализованное преимущество: GRPO вычисляет преимущество для каждого ответа $i$ внутри группы ответов на один и тот же запрос, используя $z$-оценку наград (разность между наградой ответа и средним по группе, делённая на стандартное отклонение).
Масштабируемость: Поскольку для каждого запроса генерируется группа ответов, это естественным образом учитывает сложность задачи (разные базовые линии для разных вопросов).

По мнению исследователей, несмотря на популярность GRPO, в его реализации есть нюансы. Например, деление на стандартное отклонение может «переусердствовать» на простых или экстремально сложных задачах. Также отмечается, что «необузданный» рост длины цепочки рассуждений (CoT) в некоторых версиях GRPO является не следствием лучшего мышления, а результатом некорректных стимулов в функции награды.

🧠 Кейс-стади: DeepSeek-R1, Kimi k1.5 и Qwen 3 42:01

Все три модели используют разные вариации RL, но сходятся в общем «плейбуке» создания систем рассуждения.

DeepSeek-R1 43:49

R1 продемонстрировал, что можно достичь производительности уровня OpenAI o1, используя крайне простой рецепт:

R1-Zero: Чистый RL на проверяемых наградах без сложных этапов поиска (search) или процессных моделей наград (PRM).
Итеративный процесс: Сначала SFT на данных с цепочками рассуждений (CoT), затем RL на математических задачах, и в конце — финальный этап RLHF.
Вывод о PRM и MCTS: Авторы пришли к негативному результату относительно PRM (процессных моделей наград) и MCTS (поиска по дереву) — на текущем этапе они не дают существенного преимущества перед результатами с использованием только GRPO и «outcome-based» наград.

Kimi k1.5

Этот проект интересен с точки зрения инженерного подхода:

Контроль стоимости: Kimi делает акцент на сжатии цепочек рассуждений для минимизации затрат на инференс, считая это важнее «длины ради длины».
Инфраструктура: Авторы детально обсуждают сложности распределения GPU-ресурсов между процессами обучения (RL) и инференса (rollouts), что до этого почти не освещалось в других статьях.

Qwen 3

Новейший представитель, развивающий идеи предшественников:

Thinking Mode Fusion: Позволяет одной модели работать в двух режимах («с рассуждением» и «без»), что даёт пользователю возможность гибко управлять бюджетом токенов рассуждения.
Эффективность данных: Успешный RL-процесс был проведен всего на 3 995 примерах, что подчеркивает удивительную эффективность обучения на качественных данных, а не на «сыром» объеме.