DeepSeek R1 против OpenAI o1: как алгоритм GRPO изменил правила игры в ИИ

Stanford Online 47,6 тыс. 1 ч 47 мин 5 мин 14.11.2025
Главное

В лекции Стэнфордского университета курса CME295, посвященной трансформерам и большим языковым моделям (LLM), лекторы Афшин и Шервин подробно разбирают одну из самых актуальных тем 2024–2025 годов — LLM Reasoning (способность моделей к рассуждению). В отличие от «ванильных» моделей, которые просто предсказывают следующий токен, модели рассуждений способны разбивать сложные задачи на этапы, проверять собственные гипотезы и демонстрировать прогресс в математике и программировании, сопоставимый с уровнем лучших экспертов-людей.

🧠 Что такое рассуждение в контексте LLM? 13:35

По мнению Афшина, в индустрии нет единого определения «рассуждения», однако рабочее определение в рамках курса — это способность решать проблемы через многошаговый процесс . Если обычный вопрос на знание фактов (например, код курса в Стэнфорде) требует только обращения к памяти, то задача по математике или кодингу требует декомпозиции на более простые, выполнимые подзадачи .

Ключевые отличия моделей рассуждения:

📉 Слабости традиционных («ванильных») моделей 9:44

Афшин выделяет четыре критические проблемы классических LLM, которые решаются переходом к моделям рассуждения:

  1. Ограниченное мышление: Модели часто «теряются» в сложных математических доказательствах, так как обучены просто максимизировать вероятность следующего токена .
  2. Статичные знания: Интеллект модели ограничен датой отсечки (cutoff date) тренировочных данных. Без внешнего поиска (RAG) она не знает о событиях вчерашнего дня .
  3. Отсутствие действий: Традиционные модели хороши в разговорах, но не умеют выполнять действия в реальном мире (action-oriented tasks) .
  4. Сложность оценки: Свободный текст трудно оценивать метриками вроде BLEU или ROUGE, которые использовались в старом NLP .

📊 Метрики и бенчмарки: как измерить «ум» модели 28:09

Для оценки способностей к рассуждению используются специфические наборы данных и методы подсчета:

Метрика Pass@k

Афшин подробно разбирает метрику pass@k — вероятность того, что хотя бы одна из k попыток генерации кода или ответа будет верной .

Математические нюансы метрики:

⚙️ Технология обучения: переход от PPO к GRPO 58:34

Основной прорыв в обучении моделей рассуждений связан с отказом от обучения на данных, созданных людьми (SFT), в пользу обучения с подкреплением (RL). По словам Афшина, SFT плохо подходит для обучения рассуждениям, так как модель может мыслить иначе, чем человек, и нам важнее научить её находить верный путь самостоятельно .

GRPO (Group Relative Policy Optimization)

В 2024 году был представлен алгоритм GRPO, ставший стандартом для таких моделей, как DeepSeek R1 .

Главные отличия GRPO от классического PPO:

  1. Отсутствие модели ценности (Value Function): В PPO нужно параллельно обучать нейросеть-критика, которая предсказывает награду. Это требует огромных ресурсов памяти. В GRPO критика нет .
  2. Групповое сравнение: Модель генерирует группу ответов на один и тот же вопрос. Преимущество (advantage) каждого ответа вычисляется путем сравнения его награды со средним значением по всей группе .
  3. Экономия ресурсов: Поскольку не нужно хранить веса Value-модели, процесс становится значительно дешевле и быстрее .

Награды (Rewards)

В процессе RL используются два типа проверяемых (verifiable) наград:

⚖️ Проблема «раздувания» ответов (Length Explosion) 1:16:50

Афшин отмечает интересный феномен: в процессе RL-обучения длина цепочки рассуждений модели начинает бесконтрольно расти . Это происходит потому, что в стандартных формулах RL (включая GRPO) существует скрытое смещение: короткие плохие ответы наказываются сильнее, чем длинные плохие ответы .

Для решения этой проблемы сообщество предложило модификации:

🇨🇳 Кейс DeepSeek R1: рецепт создания мощного ИИ 1:29:40

Шервин разбирает пайплайн обучения модели DeepSeek R1, которая в январе 2025 года шокировала индустрию, догнав по производительности закрытые модели OpenAI .

Этап 1: DeepSeek R1-Zero

Это был «чистый» эксперимент: модель обучали только через RL прямо из базовой (pre-trained) модели без участия людей. Модель научилась рассуждать, но её ответы были трудночитаемыми, она смешивала языки и путалась в синтаксисе .

Этап 2: Полноценная DeepSeek R1

Чтобы исправить ошибки R1-Zero, инженеры применили многоступенчатый подход :

  1. Cold Start: Небольшое количество (тысячи) высококачественных цепочек рассуждений, написанных или отредактированных людьми, подается в SFT .
  2. RL-обучение: Применяется GRPO с наградами за точность, формат и «языковую последовательность» (чтобы модель не перескакивала с английского на китайский) .
  3. Rejection Sampling (SFT-2): С помощью обученной на шаге 2 модели генерируются сотни тысяч ответов. Лучшие из них (проверенные судьями-LLM) отбираются для финального обучения модели, которая становится не только умной, но и полезным ассистентом в обычных темах .
  4. Финальный RL: Доводка модели на критериях полезности (helpfulness) и безопасности (harmlessness) .

📉 Дистилляция: как сделать маленькие модели умными 1:43:30

Шервин объясняет, как знания гигантских моделей (вроде R1 на 600 млрд параметров) переносятся в маленькие (например, Llama 8B). Оказалось, что для маленьких моделей гораздо эффективнее обучаться на «дистиллированных» данных от большой модели (SFT), чем пытаться выучить рассуждения с нуля через RL . Таким образом, даже компактные модели могут демонстрировать продвинутую логику, просто имитируя структуру ответов своих «старших собратьев» .

💬 Цитаты

«Рассуждение — это не просто знание фактов, это способность решать проблему через многошаговый процесс.»

«Когда вы позволяете LLM генерировать больше токенов, вы просто даете ей больше вычислительного бюджета.»

«DeepSeek R1-Zero показала, что даже без человеческого присмотра модель может научиться мыслить, просто получая награды за верные ответы.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
GRPO
Group Relative Policy Optimization — алгоритм обучения с подкреплением, сравнивающий награды внутри группы генераций без использования отдельной модели-критика.
Chain of Thought (CoT)
Метод, при котором модель описывает промежуточные шаги рассуждения перед выдачей финального ответа.
SFT (Supervised Fine-Tuning)
Дообучение модели на наборе данных «вопрос-ответ», подготовленном людьми.
Cutoff date
Дата, после которой события не попадают в обучающую выборку модели, ограничивая её знания.
📊 Цифры
🗓 Хронология
  1. Сентябрь 2024 Выпуск OpenAI o1-preview, заложивший тренд на модели рассуждений.
  2. Декабрь 2024 Релиз Gemini 2.0 Flash Thinking от Google.
  3. Январь 2025 Публикация статьи DeepSeek R1, продемонстрировавшей открытый метод воспроизведения логики o1.
⚖️ Другая сторона
Искусственный интеллект DeepSeek R1 GRPO LLM Reasoning Pass@k Chain of Thought