DeepSeek R1 против OpenAI o1: как алгоритм GRPO изменил правила игры в ИИ

В лекции Стэнфордского университета курса CME295, посвященной трансформерам и большим языковым моделям (LLM), лекторы Афшин и Шервин подробно разбирают одну из самых актуальных тем 2024–2025 годов — LLM Reasoning (способность моделей к рассуждению). В отличие от «ванильных» моделей, которые просто предсказывают следующий токен, модели рассуждений способны разбивать сложные задачи на этапы, проверять собственные гипотезы и демонстрировать прогресс в математике и программировании, сопоставимый с уровнем лучших экспертов-людей.

🧠 Что такое рассуждение в контексте LLM? 13:35

По мнению Афшина, в индустрии нет единого определения «рассуждения», однако рабочее определение в рамках курса — это способность решать проблемы через многошаговый процесс . Если обычный вопрос на знание фактов (например, код курса в Стэнфорде) требует только обращения к памяти, то задача по математике или кодингу требует декомпозиции на более простые, выполнимые подзадачи .

Ключевые отличия моделей рассуждения:

Цепочка мыслей (Chain of Thought, CoT): Вместо мгновенного ответа модель сначала генерирует скрытую или явную цепочку размышлений .
Бюджет вычислений (Compute Budget): Лектор подчеркивает, что генерация дополнительных токенов в CoT — это, по сути, передача модели большего объема вычислительных мощностей на один запрос .
Верифицируемость: Рассуждения чаще всего применяются в областях, где результат можно проверить объективно: в математике (совпадение ответа с эталоном) и программировании (прохождение тестов) .

📉 Слабости традиционных («ванильных») моделей 9:44

Афшин выделяет четыре критические проблемы классических LLM, которые решаются переходом к моделям рассуждения:

Ограниченное мышление: Модели часто «теряются» в сложных математических доказательствах, так как обучены просто максимизировать вероятность следующего токена .
Статичные знания: Интеллект модели ограничен датой отсечки (cutoff date) тренировочных данных. Без внешнего поиска (RAG) она не знает о событиях вчерашнего дня .
Отсутствие действий: Традиционные модели хороши в разговорах, но не умеют выполнять действия в реальном мире (action-oriented tasks) .
Сложность оценки: Свободный текст трудно оценивать метриками вроде BLEU или ROUGE, которые использовались в старом NLP .

📊 Метрики и бенчмарки: как измерить «ум» модели 28:09

Для оценки способностей к рассуждению используются специфические наборы данных и методы подсчета:

Coding: HumanEval (100+ задач, написанных людьми), CodeForces (олимпиадное программирование) и SWE-bench (реальные проблемы из GitHub-репозиториев) .
Math: AIME (квалификационный экзамен для математических олимпиад США) и GSM8K (задачи уровня начальной школы) .

Метрика Pass@k

Афшин подробно разбирает метрику pass@k — вероятность того, что хотя бы одна из k попыток генерации кода или ответа будет верной .

Математические нюансы метрики:

Чтобы оценка была менее шумной, генерируется n образцов (где n > k), из которых выбирается количество успешных c .
Лектор выводит формулу оценки через сочетания, основанную на выборке без возвращения .
Температура: При оценке важно учитывать параметр температуры. Низкая температура (T=0) дает стабильный, но однообразный результат. Высокая (T=0.8–1.2) увеличивает разнообразие (diversity), что повышает шансы на успех при больших k, но может снизить общее качество ответов .

⚙️ Технология обучения: переход от PPO к GRPO 58:34

Основной прорыв в обучении моделей рассуждений связан с отказом от обучения на данных, созданных людьми (SFT), в пользу обучения с подкреплением (RL). По словам Афшина, SFT плохо подходит для обучения рассуждениям, так как модель может мыслить иначе, чем человек, и нам важнее научить её находить верный путь самостоятельно .

GRPO (Group Relative Policy Optimization)

В 2024 году был представлен алгоритм GRPO, ставший стандартом для таких моделей, как DeepSeek R1 .

Главные отличия GRPO от классического PPO:

Отсутствие модели ценности (Value Function): В PPO нужно параллельно обучать нейросеть-критика, которая предсказывает награду. Это требует огромных ресурсов памяти. В GRPO критика нет .
Групповое сравнение: Модель генерирует группу ответов на один и тот же вопрос. Преимущество (advantage) каждого ответа вычисляется путем сравнения его награды со средним значением по всей группе .
Экономия ресурсов: Поскольку не нужно хранить веса Value-модели, процесс становится значительно дешевле и быстрее .

Награды (Rewards)

В процессе RL используются два типа проверяемых (verifiable) наград:

Награда за точность: Верно ли решена задача .
Награда за формат: Использует ли модель специальные токены (например, <thought> и <answer>) для структурирования своих мыслей .

⚖️ Проблема «раздувания» ответов (Length Explosion) 1:16:50

Афшин отмечает интересный феномен: в процессе RL-обучения длина цепочки рассуждений модели начинает бесконтрольно расти . Это происходит потому, что в стандартных формулах RL (включая GRPO) существует скрытое смещение: короткие плохие ответы наказываются сильнее, чем длинные плохие ответы .

Для решения этой проблемы сообщество предложило модификации:

DAPO: Уравнивает вклад каждого токена в функцию потерь независимо от длины последовательности .
Dr. GRPO: Предлагает полностью убрать коэффициент деления на длину, чтобы остановить «инфляцию» токенов .

🇨🇳 Кейс DeepSeek R1: рецепт создания мощного ИИ 1:29:40

Шервин разбирает пайплайн обучения модели DeepSeek R1, которая в январе 2025 года шокировала индустрию, догнав по производительности закрытые модели OpenAI .

Этап 1: DeepSeek R1-Zero

Это был «чистый» эксперимент: модель обучали только через RL прямо из базовой (pre-trained) модели без участия людей. Модель научилась рассуждать, но её ответы были трудночитаемыми, она смешивала языки и путалась в синтаксисе .

Этап 2: Полноценная DeepSeek R1

Чтобы исправить ошибки R1-Zero, инженеры применили многоступенчатый подход :

Cold Start: Небольшое количество (тысячи) высококачественных цепочек рассуждений, написанных или отредактированных людьми, подается в SFT .
RL-обучение: Применяется GRPO с наградами за точность, формат и «языковую последовательность» (чтобы модель не перескакивала с английского на китайский) .
Rejection Sampling (SFT-2): С помощью обученной на шаге 2 модели генерируются сотни тысяч ответов. Лучшие из них (проверенные судьями-LLM) отбираются для финального обучения модели, которая становится не только умной, но и полезным ассистентом в обычных темах .
Финальный RL: Доводка модели на критериях полезности (helpfulness) и безопасности (harmlessness) .

📉 Дистилляция: как сделать маленькие модели умными 1:43:30

Шервин объясняет, как знания гигантских моделей (вроде R1 на 600 млрд параметров) переносятся в маленькие (например, Llama 8B). Оказалось, что для маленьких моделей гораздо эффективнее обучаться на «дистиллированных» данных от большой модели (SFT), чем пытаться выучить рассуждения с нуля через RL . Таким образом, даже компактные модели могут демонстрировать продвинутую логику, просто имитируя структуру ответов своих «старших собратьев» .