# DeepSeek R1 против OpenAI o1: как алгоритм GRPO изменил правила игры в ИИ

Источник: https://www.youtube.com/watch?v=k5Fh-UgTuCo
Канал: Stanford Online
Опубликовано: 14.11.2025

---

В лекции Стэнфордского университета курса CME295, посвященной трансформерам и большим языковым моделям (LLM), лекторы Афшин и Шервин подробно разбирают одну из самых актуальных тем 2024–2025 годов — **LLM Reasoning** (способность моделей к рассуждению). В отличие от «ванильных» моделей, которые просто предсказывают следующий токен, модели рассуждений способны разбивать сложные задачи на этапы, проверять собственные гипотезы и демонстрировать прогресс в математике и программировании, сопоставимый с уровнем лучших экспертов-людей.

## 🧠 Что такое рассуждение в контексте LLM?
[[JUMP:13:35]]

По мнению Афшина, в индустрии нет единого определения «рассуждения», однако рабочее определение в рамках курса — это способность решать проблемы через многошаговый процесс [14:17]. Если обычный вопрос на знание фактов (например, код курса в Стэнфорде) требует только обращения к памяти, то задача по математике или кодингу требует декомпозиции на более простые, выполнимые подзадачи [14:46].

Ключевые отличия моделей рассуждения:

*   **Цепочка мыслей (Chain of Thought, CoT):** Вместо мгновенного ответа модель сначала генерирует скрытую или явную цепочку размышлений [16:58].
*   **Бюджет вычислений (Compute Budget):** Лектор подчеркивает, что генерация дополнительных токенов в CoT — это, по сути, передача модели большего объема вычислительных мощностей на один запрос [20:43].
*   **Верифицируемость:** Рассуждения чаще всего применяются в областях, где результат можно проверить объективно: в математике (совпадение ответа с эталоном) и программировании (прохождение тестов) [28:50].

## 📉 Слабости традиционных («ванильных») моделей
[[JUMP:09:44]]

Афшин выделяет четыре критические проблемы классических LLM, которые решаются переходом к моделям рассуждения:

1.  **Ограниченное мышление:** Модели часто «теряются» в сложных математических доказательствах, так как обучены просто максимизировать вероятность следующего токена [10:01].
2.  **Статичные знания:** Интеллект модели ограничен датой отсечки (cutoff date) тренировочных данных. Без внешнего поиска (RAG) она не знает о событиях вчерашнего дня [10:44].
3.  **Отсутствие действий:** Традиционные модели хороши в разговорах, но не умеют выполнять действия в реальном мире (action-oriented tasks) [11:13].
4.  **Сложность оценки:** Свободный текст трудно оценивать метриками вроде BLEU или ROUGE, которые использовались в старом NLP [11:43].

## 📊 Метрики и бенчмарки: как измерить «ум» модели
[[JUMP:28:09]]

Для оценки способностей к рассуждению используются специфические наборы данных и методы подсчета:

*   **Coding:** HumanEval (100+ задач, написанных людьми), CodeForces (олимпиадное программирование) и SWE-bench (реальные проблемы из GitHub-репозиториев) [29:31].
*   **Math:** AIME (квалификационный экзамен для математических олимпиад США) и GSM8K (задачи уровня начальной школы) [31:39].

### Метрика Pass@k
Афшин подробно разбирает метрику **pass@k** — вероятность того, что хотя бы одна из *k* попыток генерации кода или ответа будет верной [32:38].

Математические нюансы метрики:

*   Чтобы оценка была менее шумной, генерируется *n* образцов (где *n > k*), из которых выбирается количество успешных *c* [36:15].
*   Лектор выводит формулу оценки через сочетания, основанную на выборке без возвращения [43:45].
*   **Температура:** При оценке важно учитывать параметр температуры. Низкая температура (T=0) дает стабильный, но однообразный результат. Высокая (T=0.8–1.2) увеличивает разнообразие (diversity), что повышает шансы на успех при больших *k*, но может снизить общее качество ответов [46:31].

## ⚙️ Технология обучения: переход от PPO к GRPO
[[JUMP:58:34]]

Основной прорыв в обучении моделей рассуждений связан с отказом от обучения на данных, созданных людьми (SFT), в пользу обучения с подкреплением (RL). По словам Афшина, SFT плохо подходит для обучения рассуждениям, так как модель может мыслить иначе, чем человек, и нам важнее научить её находить верный путь самостоятельно [50:25].

### GRPO (Group Relative Policy Optimization)
В 2024 году был представлен алгоритм **GRPO**, ставший стандартом для таких моделей, как DeepSeek R1 [59:03].

Главные отличия GRPO от классического PPO:

1.  **Отсутствие модели ценности (Value Function):** В PPO нужно параллельно обучать нейросеть-критика, которая предсказывает награду. Это требует огромных ресурсов памяти. В GRPO критика нет [1:01:37].
2.  **Групповое сравнение:** Модель генерирует группу ответов на один и тот же вопрос. Преимущество (advantage) каждого ответа вычисляется путем сравнения его награды со средним значением по всей группе [1:02:04].
3.  **Экономия ресурсов:** Поскольку не нужно хранить веса Value-модели, процесс становится значительно дешевле и быстрее [1:03:14].

### Награды (Rewards)
В процессе RL используются два типа проверяемых (verifiable) наград:

*   **Награда за точность:** Верно ли решена задача [52:31].
*   **Награда за формат:** Использует ли модель специальные токены (например, `<thought>` и `<answer>`) для структурирования своих мыслей [53:09].

## ⚖️ Проблема «раздувания» ответов (Length Explosion)
[[JUMP:1:16:50]]

Афшин отмечает интересный феномен: в процессе RL-обучения длина цепочки рассуждений модели начинает бесконтрольно расти [1:18:09]. Это происходит потому, что в стандартных формулах RL (включая GRPO) существует скрытое смещение: короткие плохие ответы наказываются сильнее, чем длинные плохие ответы [1:24:09].

Для решения этой проблемы сообщество предложило модификации:

*   **DAPO:** Уравнивает вклад каждого токена в функцию потерь независимо от длины последовательности [1:25:21].
*   **Dr. GRPO:** Предлагает полностью убрать коэффициент деления на длину, чтобы остановить «инфляцию» токенов [1:25:50].

## 🇨🇳 Кейс DeepSeek R1: рецепт создания мощного ИИ
[[JUMP:1:29:40]]

Шервин разбирает пайплайн обучения модели DeepSeek R1, которая в январе 2025 года шокировала индустрию, догнав по производительности закрытые модели OpenAI [23:31].

### Этап 1: DeepSeek R1-Zero
Это был «чистый» эксперимент: модель обучали только через RL прямо из базовой (pre-trained) модели без участия людей. Модель научилась рассуждать, но её ответы были трудночитаемыми, она смешивала языки и путалась в синтаксисе [1:35:03].

### Этап 2: Полноценная DeepSeek R1
Чтобы исправить ошибки R1-Zero, инженеры применили многоступенчатый подход [1:36:10]:

1.  **Cold Start:** Небольшое количество (тысячи) высококачественных цепочек рассуждений, написанных или отредактированных людьми, подается в SFT [1:37:09].
2.  **RL-обучение:** Применяется GRPO с наградами за точность, формат и «языковую последовательность» (чтобы модель не перескакивала с английского на китайский) [1:38:38].
3.  **Rejection Sampling (SFT-2):** С помощью обученной на шаге 2 модели генерируются сотни тысяч ответов. Лучшие из них (проверенные судьями-LLM) отбираются для финального обучения модели, которая становится не только умной, но и полезным ассистентом в обычных темах [1:40:17].
4.  **Финальный RL:** Доводка модели на критериях полезности (helpfulness) и безопасности (harmlessness) [1:42:01].

## 📉 Дистилляция: как сделать маленькие модели умными
[[JUMP:1:43:30]]

Шервин объясняет, как знания гигантских моделей (вроде R1 на 600 млрд параметров) переносятся в маленькие (например, Llama 8B). Оказалось, что для маленьких моделей гораздо эффективнее обучаться на «дистиллированных» данных от большой модели (SFT), чем пытаться выучить рассуждения с нуля через RL [1:46:48]. Таким образом, даже компактные модели могут демонстрировать продвинутую логику, просто имитируя структуру ответов своих «старших собратьев» [1:45:51].