Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

Stanford Online 35,4 тыс. 1 ч 20 мин 3 мин 01.07.2025
Главное

🚀 Эволюция RL в языковых моделях: от DPO до GRPO 12:18

Современные языковые модели, ориентированные на глубокое рассуждение (reasoning models), такие как OpenAI o1, DeepSeek-R1, Kimi k1.5 и Qwen 3, совершили прорыв благодаря переходу от обучения на человеческих предпочтениях (RLHF) к обучению с подкреплением на проверяемых наградах (verifiable rewards). Этот подход позволяет использовать мощь алгоритмов RL, известных по успехам в AlphaGo или AlphaFold, где истинная награда (правильность ответа в математике или программировании) известна и вычисляется быстро.

🛠 Проблемы классического RLHF и подъем DPO 0:30

Обучение с подкреплением на основе человеческих предпочтений (RLHF) стало «золотым стандартом» для выравнивания (alignment) моделей. Однако оно имеет ряд критических ограничений:

🏗 GRPO: простота против сложности 28:48

Алгоритм GRPO (Group Relative Policy Optimization) стал ответом на сложность PPO (Proximal Policy Optimization). Его главная цель — сделать процесс обучения эффективнее и проще.

По мнению исследователей, несмотря на популярность GRPO, в его реализации есть нюансы. Например, деление на стандартное отклонение может «переусердствовать» на простых или экстремально сложных задачах. Также отмечается, что «необузданный» рост длины цепочки рассуждений (CoT) в некоторых версиях GRPO является не следствием лучшего мышления, а результатом некорректных стимулов в функции награды.

🧠 Кейс-стади: DeepSeek-R1, Kimi k1.5 и Qwen 3 42:01

Все три модели используют разные вариации RL, но сходятся в общем «плейбуке» создания систем рассуждения.

DeepSeek-R1 43:49

R1 продемонстрировал, что можно достичь производительности уровня OpenAI o1, используя крайне простой рецепт:

Kimi k1.5

Этот проект интересен с точки зрения инженерного подхода:

Qwen 3

Новейший представитель, развивающий идеи предшественников:

💬 Цитаты

«Overoptimization is essentially overfitting in fancier naming.»

Перси Лян 06:27

«Never let your advisers tell you that your archive papers will never matter.»

Перси Лян 43:49
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
GRPO
Алгоритм RL, который упрощает обучение моделей, используя групповую относительную нормализацию вместо функции ценности.
Chain of Thought (CoT)
Цепочка рассуждений, генерируемая моделью перед выдачей итогового ответа.
PRM (Process Reward Model)
Модель, оценивающая правильность каждого промежуточного шага рассуждения.
Alignment
Процесс настройки модели, чтобы её поведение соответствовало человеческим ожиданиям и ценностям.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект GRPO DeepSeek-R1 RLHF reasoning models Qwen 3