# Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

Источник: https://www.youtube.com/watch?v=46f2QTDB08Q
Канал: Stanford Online
Опубликовано: 01.07.2025

---

## 🚀 Эволюция RL в языковых моделях: от DPO до GRPO
[[JUMP:12:18]]

Современные языковые модели, ориентированные на глубокое рассуждение (reasoning models), такие как OpenAI o1, DeepSeek-R1, Kimi k1.5 и Qwen 3, совершили прорыв благодаря переходу от обучения на человеческих предпочтениях (RLHF) к обучению с подкреплением на проверяемых наградах (verifiable rewards). Этот подход позволяет использовать мощь алгоритмов RL, известных по успехам в AlphaGo или AlphaFold, где истинная награда (правильность ответа в математике или программировании) известна и вычисляется быстро.

### 🛠 Проблемы классического RLHF и подъем DPO
[[JUMP:0:30]]

Обучение с подкреплением на основе человеческих предпочтений (RLHF) стало «золотым стандартом» для выравнивания (alignment) моделей. Однако оно имеет ряд критических ограничений:

*   **Переоптимизация (Overoptimization):** Чрезмерная оптимизация модели под «прокси-награду» (модель, обучаемую имитировать оценки людей) приводит к тому, что качество ответов начинает деградировать, так как модель «взламывает» метрику, а не обучается лучшему решению.
*   **Отсутствие калибровки:** В отличие от вероятностного обучения (SFT), RLHF-модели часто демонстрируют чрезмерную уверенность (overconfidence), что делает их менее надежными как вероятностные системы.
*   **Сложность DPO:** Алгоритм DPO (Direct Preference Optimization) долгое время доминировал, так как позволял оптимизировать политику модели через супервизорное обучение на парах предпочтений, обходя необходимость сложного обучения функции ценности (value function). 
*   **Вариативность результатов:** Исследования AI2 по проекту Tulu 3 показали, что выводы о превосходстве PPO или DPO часто зависят от конкретной среды и способа SFT, поэтому ни один результат нельзя считать «истиной в последней инстанции».

### 🏗 GRPO: простота против сложности
[[JUMP:28:48]]

Алгоритм **GRPO (Group Relative Policy Optimization)** стал ответом на сложность PPO (Proximal Policy Optimization). Его главная цель — сделать процесс обучения эффективнее и проще.

*   **Устранение функции ценности:** В отличие от PPO, который требует содержания громоздкой функции ценности (занимающей почти столько же памяти, сколько сама LLM), GRPO обходится без неё.
*   **Групповое нормализованное преимущество:** GRPO вычисляет преимущество для каждого ответа $i$ внутри группы ответов на один и тот же запрос, используя $z$-оценку наград (разность между наградой ответа и средним по группе, делённая на стандартное отклонение).
*   **Масштабируемость:** Поскольку для каждого запроса генерируется группа ответов, это естественным образом учитывает сложность задачи (разные базовые линии для разных вопросов).

По мнению исследователей, несмотря на популярность GRPO, в его реализации есть нюансы. Например, деление на стандартное отклонение может «переусердствовать» на простых или экстремально сложных задачах. Также отмечается, что «необузданный» рост длины цепочки рассуждений (CoT) в некоторых версиях GRPO является не следствием лучшего мышления, а результатом некорректных стимулов в функции награды.

### 🧠 Кейс-стади: DeepSeek-R1, Kimi k1.5 и Qwen 3
[[JUMP:42:01]]

Все три модели используют разные вариации RL, но сходятся в общем «плейбуке» создания систем рассуждения.

#### DeepSeek-R1
[[JUMP:43:49]]
R1 продемонстрировал, что можно достичь производительности уровня OpenAI o1, используя крайне простой рецепт:

*   **R1-Zero:** Чистый RL на проверяемых наградах без сложных этапов поиска (search) или процессных моделей наград (PRM).
*   **Итеративный процесс:** Сначала SFT на данных с цепочками рассуждений (CoT), затем RL на математических задачах, и в конце — финальный этап RLHF.
*   **Вывод о PRM и MCTS:** Авторы пришли к негативному результату относительно PRM (процессных моделей наград) и MCTS (поиска по дереву) — на текущем этапе они не дают существенного преимущества перед результатами с использованием только GRPO и «outcome-based» наград.

#### Kimi k1.5
[[JUMP:99:40]]
Этот проект интересен с точки зрения инженерного подхода:

*   **Контроль стоимости:** Kimi делает акцент на сжатии цепочек рассуждений для минимизации затрат на инференс, считая это важнее «длины ради длины».
*   **Инфраструктура:** Авторы детально обсуждают сложности распределения GPU-ресурсов между процессами обучения (RL) и инференса (rollouts), что до этого почти не освещалось в других статьях.

#### Qwen 3
[[JUMP:113:57]]
Новейший представитель, развивающий идеи предшественников:

*   **Thinking Mode Fusion:** Позволяет одной модели работать в двух режимах («с рассуждением» и «без»), что даёт пользователю возможность гибко управлять бюджетом токенов рассуждения.
*   **Эффективность данных:** Успешный RL-процесс был проведен всего на 3 995 примерах, что подчеркивает удивительную эффективность обучения на качественных данных, а не на «сыром» объеме.