Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей

Шестая лекция курса Стэнфордского университета CME295 посвящена одной из самых актуальных тем в области искусственного интеллекта за последний год — способности больших языковых моделей (LLM) к рассуждению (Reasoning). Преподаватели Афшин и Шервин подробно разбирают переход от «ванильных» LLM к специализированным моделям рассуждения, таким как OpenAI o1 и DeepSeek R1, анализируют математические основы алгоритма GRPO и объясняют, почему обучение с подкреплением (RL) стало ключевым инструментом для развития интеллектуальных способностей ИИ.

🧠 От «автозаполнения» к глубоким размышлениям 0:05

Традиционные «ванильные» LLM проходят три основных этапа обучения: предварительное обучение (Pre-training) для усвоения структуры языка, тонкая настройка под инструкции (SFT) для создания помощника и настройка предпочтений (Preference Tuning), например, через RLHF . Однако у таких моделей есть существенные недостатки:

Ограниченное рассуждение: модели часто ошибаются в сложных математических или логических задачах, так как обучены просто предсказывать следующий токен .
Статичные знания: интеллект модели ограничен датой отсечки тренировочных данных .
Отсутствие действий: модель может рассуждать, но не может совершать действия (например, оформить заказ) .
Сложность оценки: свободный формат текста трудно измерить стандартными метриками вроде BLEU или ROUGE .

Рассуждение (Reasoning) определяется Афшином как способность решать проблему через многошаговый процесс . В отличие от простого воспроизведения знаний (например, кода курса CME 295), задачи на рассуждение требуют разбиения сложного вопроса на трактуемые подзадачи . Фундаментом для этого стала концепция «Цепочки мыслей» (Chain of Thought, CoT), которая побуждает модель думать шагами, прежде чем дать окончательный ответ .

📅 Хронология и пользовательский опыт моделей рассуждения 22:21

Бум моделей рассуждения начался совсем недавно. Основные вехи развития:

Сентябрь 2024: Выход OpenAI o1-preview, задавший тренд на модели, которые «думают» перед ответом .
Декабрь 2024: Релиз Gemini 2.0 Flash Thinking от Google .
Январь 2025: Публикация статьи DeepSeek R1, которая произвела фурор, показав, что открытые методы могут достичь производительности моделей OpenAI .
Начало 2025: Появление способностей к рассуждению в моделях от Anthropic (Claude), xAI и Mistral .

Для пользователя работа такой модели визуализируется через блоки «Thinking» в интерфейсах . По мнению Афшина, компании скрывают полные цепочки рассуждений по трем причинам: во-первых, сырые мысли могут быть неразборчивы для человека; во-вторых, пользователи не хотят читать страницы текста; в-третьих, на этих цепочках можно обучить другие модели, что создает риск кражи интеллектуальной собственности . Важно учитывать, что при использовании API токены рассуждения (Reasoning Tokens) обычно оплачиваются по тем же тарифам, что и выходные данные .

📊 Бенчмарки и математика метрики Pass@k 28:09

Для оценки способностей к рассуждению используются специфические наборы тестов:

Программирование: HumanEval (100+ задач, написанных людьми), CodeForces и SWE-bench (реальные проблемы из GitHub) .
Математика: GSM8K (задачи уровня начальной школы) и AIME (квалификационные экзамены для математических олимпиад США) .

Ключевой метрикой здесь является Pass@k — вероятность того, что хотя бы одна из k попыток генерации ответа окажется успешной . Афшин приводит математический вывод этой метрики, чтобы избежать высокой дисперсии при малом количестве тестов. Если из n сгенерированных ответов c являются правильными, то оценка Pass@k вычисляется по формуле:

$1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}$

Выбор температуры генерации критически влияет на эту метрику:

При $T=0$ (детерминированная генерация) ответы не отличаются разнообразием, и Pass@k не растет с увеличением $k$ .
Оптимальным значением для тестов часто является $T \approx 0.8$, что обеспечивает баланс между правильностью и разнообразием решений .

⚙️ Обучение с подкреплением (RL) как двигатель логики 48:30

Почему для моделей рассуждения выбирают RL, а не простое обучение на примерах (SFT)? Афшин выделяет три причины:

Написание длинных цепочек рассуждений — крайне трудоемкая задача для людей .
Способ мышления модели может отличаться от человеческого, и человеческие примеры могут быть не оптимальны для ИИ .
Задачи по математике и программированию имеют «естественную награду» — их легко проверить автоматически (тестами или сверкой с ответом) .

Процесс RL для таких моделей строится на двух типах наград: проверка формата (наличие токенов <think> и </think>) и проверка точности (совпадение итогового ответа с эталоном) . Эксперименты с DeepSeek R1-Zero показали, что даже без предварительной SFT-настройки, модель в процессе RL начинает самостоятельно развивать способности к рассуждению, и её точность на сложных тестах (например, AIME) значительно растет со временем .

🚀 Алгоритм GRPO: RL без лишних затрат 58:49

Для обучения моделей рассуждения DeepSeek представила алгоритм GRPO (Group Relative Policy Optimization). Главное отличие GRPO от классического PPO (Proximal Policy Optimization) заключается в отказе от «модели ценности» (Value Function) .

В PPO необходимо одновременно обучать основную модель (Policy) и вспомогательную модель ценности, которая предсказывает ожидаемую награду. Это требует огромных вычислительных ресурсов. GRPO решает эту проблему иначе:

Для одного промпта генерируется группа из G ответов .
Преимущество (Advantage) каждого ответа вычисляется путем сравнения его награды со средним значением наград всей группы .
Это позволяет оценивать качество ответа в относительном контексте без использования отдельной нейросети-критика .

📏 Проблема «раздувания» ответов и оптимизация 1:16:50

Эмпирические данные показывают, что в процессе RL длина цепочек рассуждений постоянно растет. Это коррелирует с ростом точности, но в какой-то момент точность стабилизируется, а длина продолжает увеличиваться . Это создает проблемы: пользователи переплачивают за лишние токены, а серверы провайдеров нагружаются сильнее .

Афшин объясняет это математической ошибкой в базовой формуле GRPO: деление на длину вывода при вычислении потерь создает неверный стимул. Модель начинает считать, что «длинный плохой ответ» лучше, чем «короткий плохой ответ» . Для решения этой проблемы предложены новые подходы:

DAPO: Уравнивает вклад каждого токена в функцию потерь независимо от длины предложения .
Dr. GRPO: Полностью удаляет коэффициент длины из формулы, что позволяет остановить бесконечный рост цепочек мыслей без потери качества .

🧪 Рецепт DeepSeek R1: от Zero до полной версии 1:35:57

Шервин подробно разбирает этапы создания DeepSeek R1. Исследователи начали с R1-Zero — чистый RL на базе предварительно обученной модели. Хотя она показала высокие результаты в логике, у неё возникли проблемы: смешивание языков в мыслях и плохая читаемость .

Для создания финальной DeepSeek R1 использовался многоэтапный конвейер:

Cold Start: Небольшое количество (SFT) высококачественных цепочек рассуждений, написанных людьми или отобранных из R1-Zero и отредактированных .
Reasoning RL: Обучение с наградами за точность, формат и «языковую последовательность» (чтобы модель не перескакивала с одного языка на другой) .
Rejection Sampling & SFT: Генерация 600 тысяч новых примеров, из которых только лучшие (прошедшие через фильтр другой модели-судьи) попали в набор данных для обучения. Здесь же добавлялись данные для обычных задач (не рассуждений) .
Final RL: Финальная стадия для выравнивания модели по критериям полезности и безопасности (Helpfulness & Harmlessness) .

📉 Дистилляция: как сделать маленькие модели умными 1:43:30

Далеко не у всех есть ресурсы для запуска гигантских моделей (вроде DeepSeek V3 на 671 млрд параметров). Оказалось, что способности к рассуждению можно «перелить» в маленькие модели (например, Llama 8B или Qwen 7B) через дистилляцию .

Вместо того чтобы обучать маленькую модель через RL с нуля (что не очень эффективно для малых весов), исследователи используют мощную модель-учитель (DeepSeek R1) для генерации цепочек рассуждений. Маленькая модель-ученик просто обучается предсказывать эти последовательности токенов . По данным DeepSeek, дистиллированные модели показывают гораздо лучшие результаты, чем те, что пытались научиться рассуждать самостоятельно через RL . Это позволяет достичь производительности уровня o1-mini на компактном железе.