# Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей

Источник: https://www.youtube.com/watch?v=k5Fh-UgTuCo
Канал: Stanford Online
Опубликовано: 14.11.2025

---

Шестая лекция курса Стэнфордского университета CME295 посвящена одной из самых актуальных тем в области искусственного интеллекта за последний год — способности больших языковых моделей (LLM) к рассуждению (Reasoning). Преподаватели Афшин и Шервин подробно разбирают переход от «ванильных» LLM к специализированным моделям рассуждения, таким как OpenAI o1 и DeepSeek R1, анализируют математические основы алгоритма GRPO и объясняют, почему обучение с подкреплением (RL) стало ключевым инструментом для развития интеллектуальных способностей ИИ.

## 🧠 От «автозаполнения» к глубоким размышлениям
[[JUMP:0:05]]

Традиционные «ванильные» LLM проходят три основных этапа обучения: предварительное обучение (Pre-training) для усвоения структуры языка, тонкая настройка под инструкции (SFT) для создания помощника и настройка предпочтений (Preference Tuning), например, через RLHF [1:02]. Однако у таких моделей есть существенные недостатки:

*   **Ограниченное рассуждение:** модели часто ошибаются в сложных математических или логических задачах, так как обучены просто предсказывать следующий токен [9:44].
*   **Статичные знания:** интеллект модели ограничен датой отсечки тренировочных данных [10:44].
*   **Отсутствие действий:** модель может рассуждать, но не может совершать действия (например, оформить заказ) [11:13].
*   **Сложность оценки:** свободный формат текста трудно измерить стандартными метриками вроде BLEU или ROUGE [11:43].

Рассуждение (Reasoning) определяется Афшином как способность решать проблему через многошаговый процесс [13:47]. В отличие от простого воспроизведения знаний (например, кода курса CME 295), задачи на рассуждение требуют разбиения сложного вопроса на трактуемые подзадачи [15:15]. Фундаментом для этого стала концепция «Цепочки мыслей» (Chain of Thought, CoT), которая побуждает модель думать шагами, прежде чем дать окончательный ответ [16:08].

## 📅 Хронология и пользовательский опыт моделей рассуждения
[[JUMP:22:21]]

Бум моделей рассуждения начался совсем недавно. Основные вехи развития:

*   **Сентябрь 2024:** Выход OpenAI o1-preview, задавший тренд на модели, которые «думают» перед ответом [22:50].
*   **Декабрь 2024:** Релиз Gemini 2.0 Flash Thinking от Google [23:05].
*   **Январь 2025:** Публикация статьи DeepSeek R1, которая произвела фурор, показав, что открытые методы могут достичь производительности моделей OpenAI [23:18].
*   **Начало 2025:** Появление способностей к рассуждению в моделях от Anthropic (Claude), xAI и Mistral [24:01].

Для пользователя работа такой модели визуализируется через блоки «Thinking» в интерфейсах [25:04]. По мнению Афшина, компании скрывают полные цепочки рассуждений по трем причинам: во-первых, сырые мысли могут быть неразборчивы для человека; во-вторых, пользователи не хотят читать страницы текста; в-третьих, на этих цепочках можно обучить другие модели, что создает риск кражи интеллектуальной собственности [26:02]. Важно учитывать, что при использовании API токены рассуждения (Reasoning Tokens) обычно оплачиваются по тем же тарифам, что и выходные данные [27:11].

## 📊 Бенчмарки и математика метрики Pass@k
[[JUMP:28:09]]

Для оценки способностей к рассуждению используются специфические наборы тестов:

1.  **Программирование:** HumanEval (100+ задач, написанных людьми), CodeForces и SWE-bench (реальные проблемы из GitHub) [29:18].
2.  **Математика:** GSM8K (задачи уровня начальной школы) и AIME (квалификационные экзамены для математических олимпиад США) [31:51].

Ключевой метрикой здесь является **Pass@k** — вероятность того, что хотя бы одна из *k* попыток генерации ответа окажется успешной [32:22]. Афшин приводит математический вывод этой метрики, чтобы избежать высокой дисперсии при малом количестве тестов. Если из *n* сгенерированных ответов *c* являются правильными, то оценка Pass@k вычисляется по формуле:

$1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}$ [43:45]

Выбор температуры генерации критически влияет на эту метрику:

*   При $T=0$ (детерминированная генерация) ответы не отличаются разнообразием, и Pass@k не растет с увеличением $k$ [46:00].
*   Оптимальным значением для тестов часто является $T \approx 0.8$, что обеспечивает баланс между правильностью и разнообразием решений [46:59].

## ⚙️ Обучение с подкреплением (RL) как двигатель логики
[[JUMP:48:30]]

Почему для моделей рассуждения выбирают RL, а не простое обучение на примерах (SFT)? Афшин выделяет три причины:

1.  Написание длинных цепочек рассуждений — крайне трудоемкая задача для людей [49:14].
2.  Способ мышления модели может отличаться от человеческого, и человеческие примеры могут быть не оптимальны для ИИ [50:12].
3.  Задачи по математике и программированию имеют «естественную награду» — их легко проверить автоматически (тестами или сверкой с ответом) [50:40].

Процесс RL для таких моделей строится на двух типах наград: **проверка формата** (наличие токенов `<think>` и `</think>`) и **проверка точности** (совпадение итогового ответа с эталоном) [52:47]. Эксперименты с DeepSeek R1-Zero показали, что даже без предварительной SFT-настройки, модель в процессе RL начинает самостоятельно развивать способности к рассуждению, и её точность на сложных тестах (например, AIME) значительно растет со временем [53:30].

## 🚀 Алгоритм GRPO: RL без лишних затрат
[[JUMP:58:49]]

Для обучения моделей рассуждения DeepSeek представила алгоритм **GRPO (Group Relative Policy Optimization)**. Главное отличие GRPO от классического PPO (Proximal Policy Optimization) заключается в отказе от «модели ценности» (Value Function) [1:00:59].

В PPO необходимо одновременно обучать основную модель (Policy) и вспомогательную модель ценности, которая предсказывает ожидаемую награду. Это требует огромных вычислительных ресурсов. GRPO решает эту проблему иначе:

*   Для одного промпта генерируется группа из *G* ответов [1:06:37].
*   Преимущество (Advantage) каждого ответа вычисляется путем сравнения его награды со средним значением наград всей группы [1:01:51].
*   Это позволяет оценивать качество ответа в относительном контексте без использования отдельной нейросети-критика [1:04:36].

## 📏 Проблема «раздувания» ответов и оптимизация
[[JUMP:1:16:50]]

Эмпирические данные показывают, что в процессе RL длина цепочек рассуждений постоянно растет. Это коррелирует с ростом точности, но в какой-то момент точность стабилизируется, а длина продолжает увеличиваться [1:18:40]. Это создает проблемы: пользователи переплачивают за лишние токены, а серверы провайдеров нагружаются сильнее [1:17:28].

Афшин объясняет это математической ошибкой в базовой формуле GRPO: деление на длину вывода при вычислении потерь создает неверный стимул. Модель начинает считать, что «длинный плохой ответ» лучше, чем «короткий плохой ответ» [1:24:51]. Для решения этой проблемы предложены новые подходы:

*   **DAPO:** Уравнивает вклад каждого токена в функцию потерь независимо от длины предложения [1:25:21].
*   **Dr. GRPO:** Полностью удаляет коэффициент длины из формулы, что позволяет остановить бесконечный рост цепочек мыслей без потери качества [1:25:50].

## 🧪 Рецепт DeepSeek R1: от Zero до полной версии
[[JUMP:1:35:57]]

Шервин подробно разбирает этапы создания DeepSeek R1. Исследователи начали с **R1-Zero** — чистый RL на базе предварительно обученной модели. Хотя она показала высокие результаты в логике, у неё возникли проблемы: смешивание языков в мыслях и плохая читаемость [1:35:03].

Для создания финальной **DeepSeek R1** использовался многоэтапный конвейер:

1.  **Cold Start:** Небольшое количество (SFT) высококачественных цепочек рассуждений, написанных людьми или отобранных из R1-Zero и отредактированных [1:36:44].
2.  **Reasoning RL:** Обучение с наградами за точность, формат и «языковую последовательность» (чтобы модель не перескакивала с одного языка на другой) [1:38:22].
3.  **Rejection Sampling & SFT:** Генерация 600 тысяч новых примеров, из которых только лучшие (прошедшие через фильтр другой модели-судьи) попали в набор данных для обучения. Здесь же добавлялись данные для обычных задач (не рассуждений) [1:40:02].
4.  **Final RL:** Финальная стадия для выравнивания модели по критериям полезности и безопасности (Helpfulness & Harmlessness) [1:41:20].

## 📉 Дистилляция: как сделать маленькие модели умными
[[JUMP:1:43:30]]

Далеко не у всех есть ресурсы для запуска гигантских моделей (вроде DeepSeek V3 на 671 млрд параметров). Оказалось, что способности к рассуждению можно «перелить» в маленькие модели (например, Llama 8B или Qwen 7B) через **дистилляцию** [1:45:09].

Вместо того чтобы обучать маленькую модель через RL с нуля (что не очень эффективно для малых весов), исследователи используют мощную модель-учитель (DeepSeek R1) для генерации цепочек рассуждений. Маленькая модель-ученик просто обучается предсказывать эти последовательности токенов [1:45:38]. По данным DeepSeek, дистиллированные модели показывают гораздо лучшие результаты, чем те, что пытались научиться рассуждать самостоятельно через RL [1:46:32]. Это позволяет достичь производительности уровня o1-mini на компактном железе.