Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей

Stanford Online 47,6 тыс. 1 ч 47 мин 6 мин 14.11.2025
Главное

Шестая лекция курса Стэнфордского университета CME295 посвящена одной из самых актуальных тем в области искусственного интеллекта за последний год — способности больших языковых моделей (LLM) к рассуждению (Reasoning). Преподаватели Афшин и Шервин подробно разбирают переход от «ванильных» LLM к специализированным моделям рассуждения, таким как OpenAI o1 и DeepSeek R1, анализируют математические основы алгоритма GRPO и объясняют, почему обучение с подкреплением (RL) стало ключевым инструментом для развития интеллектуальных способностей ИИ.

🧠 От «автозаполнения» к глубоким размышлениям 0:05

Традиционные «ванильные» LLM проходят три основных этапа обучения: предварительное обучение (Pre-training) для усвоения структуры языка, тонкая настройка под инструкции (SFT) для создания помощника и настройка предпочтений (Preference Tuning), например, через RLHF . Однако у таких моделей есть существенные недостатки:

Рассуждение (Reasoning) определяется Афшином как способность решать проблему через многошаговый процесс . В отличие от простого воспроизведения знаний (например, кода курса CME 295), задачи на рассуждение требуют разбиения сложного вопроса на трактуемые подзадачи . Фундаментом для этого стала концепция «Цепочки мыслей» (Chain of Thought, CoT), которая побуждает модель думать шагами, прежде чем дать окончательный ответ .

📅 Хронология и пользовательский опыт моделей рассуждения 22:21

Бум моделей рассуждения начался совсем недавно. Основные вехи развития:

Для пользователя работа такой модели визуализируется через блоки «Thinking» в интерфейсах . По мнению Афшина, компании скрывают полные цепочки рассуждений по трем причинам: во-первых, сырые мысли могут быть неразборчивы для человека; во-вторых, пользователи не хотят читать страницы текста; в-третьих, на этих цепочках можно обучить другие модели, что создает риск кражи интеллектуальной собственности . Важно учитывать, что при использовании API токены рассуждения (Reasoning Tokens) обычно оплачиваются по тем же тарифам, что и выходные данные .

📊 Бенчмарки и математика метрики Pass@k 28:09

Для оценки способностей к рассуждению используются специфические наборы тестов:

  1. Программирование: HumanEval (100+ задач, написанных людьми), CodeForces и SWE-bench (реальные проблемы из GitHub) .
  2. Математика: GSM8K (задачи уровня начальной школы) и AIME (квалификационные экзамены для математических олимпиад США) .

Ключевой метрикой здесь является Pass@k — вероятность того, что хотя бы одна из k попыток генерации ответа окажется успешной . Афшин приводит математический вывод этой метрики, чтобы избежать высокой дисперсии при малом количестве тестов. Если из n сгенерированных ответов c являются правильными, то оценка Pass@k вычисляется по формуле:

$1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}$

Выбор температуры генерации критически влияет на эту метрику:

⚙️ Обучение с подкреплением (RL) как двигатель логики 48:30

Почему для моделей рассуждения выбирают RL, а не простое обучение на примерах (SFT)? Афшин выделяет три причины:

  1. Написание длинных цепочек рассуждений — крайне трудоемкая задача для людей .
  2. Способ мышления модели может отличаться от человеческого, и человеческие примеры могут быть не оптимальны для ИИ .
  3. Задачи по математике и программированию имеют «естественную награду» — их легко проверить автоматически (тестами или сверкой с ответом) .

Процесс RL для таких моделей строится на двух типах наград: проверка формата (наличие токенов <think> и </think>) и проверка точности (совпадение итогового ответа с эталоном) . Эксперименты с DeepSeek R1-Zero показали, что даже без предварительной SFT-настройки, модель в процессе RL начинает самостоятельно развивать способности к рассуждению, и её точность на сложных тестах (например, AIME) значительно растет со временем .

🚀 Алгоритм GRPO: RL без лишних затрат 58:49

Для обучения моделей рассуждения DeepSeek представила алгоритм GRPO (Group Relative Policy Optimization). Главное отличие GRPO от классического PPO (Proximal Policy Optimization) заключается в отказе от «модели ценности» (Value Function) .

В PPO необходимо одновременно обучать основную модель (Policy) и вспомогательную модель ценности, которая предсказывает ожидаемую награду. Это требует огромных вычислительных ресурсов. GRPO решает эту проблему иначе:

📏 Проблема «раздувания» ответов и оптимизация 1:16:50

Эмпирические данные показывают, что в процессе RL длина цепочек рассуждений постоянно растет. Это коррелирует с ростом точности, но в какой-то момент точность стабилизируется, а длина продолжает увеличиваться . Это создает проблемы: пользователи переплачивают за лишние токены, а серверы провайдеров нагружаются сильнее .

Афшин объясняет это математической ошибкой в базовой формуле GRPO: деление на длину вывода при вычислении потерь создает неверный стимул. Модель начинает считать, что «длинный плохой ответ» лучше, чем «короткий плохой ответ» . Для решения этой проблемы предложены новые подходы:

🧪 Рецепт DeepSeek R1: от Zero до полной версии 1:35:57

Шервин подробно разбирает этапы создания DeepSeek R1. Исследователи начали с R1-Zero — чистый RL на базе предварительно обученной модели. Хотя она показала высокие результаты в логике, у неё возникли проблемы: смешивание языков в мыслях и плохая читаемость .

Для создания финальной DeepSeek R1 использовался многоэтапный конвейер:

  1. Cold Start: Небольшое количество (SFT) высококачественных цепочек рассуждений, написанных людьми или отобранных из R1-Zero и отредактированных .
  2. Reasoning RL: Обучение с наградами за точность, формат и «языковую последовательность» (чтобы модель не перескакивала с одного языка на другой) .
  3. Rejection Sampling & SFT: Генерация 600 тысяч новых примеров, из которых только лучшие (прошедшие через фильтр другой модели-судьи) попали в набор данных для обучения. Здесь же добавлялись данные для обычных задач (не рассуждений) .
  4. Final RL: Финальная стадия для выравнивания модели по критериям полезности и безопасности (Helpfulness & Harmlessness) .

📉 Дистилляция: как сделать маленькие модели умными 1:43:30

Далеко не у всех есть ресурсы для запуска гигантских моделей (вроде DeepSeek V3 на 671 млрд параметров). Оказалось, что способности к рассуждению можно «перелить» в маленькие модели (например, Llama 8B или Qwen 7B) через дистилляцию .

Вместо того чтобы обучать маленькую модель через RL с нуля (что не очень эффективно для малых весов), исследователи используют мощную модель-учитель (DeepSeek R1) для генерации цепочек рассуждений. Маленькая модель-ученик просто обучается предсказывать эти последовательности токенов . По данным DeepSeek, дистиллированные модели показывают гораздо лучшие результаты, чем те, что пытались научиться рассуждать самостоятельно через RL . Это позволяет достичь производительности уровня o1-mini на компактном железе.

💬 Цитаты

«Рассуждение — это способность решать проблему через многошаговый процесс.»

«GRPO отличается от PPO тем, что ему не нужна функция ценности. Он вычисляет преимущества, сравнивая награды внутри группы.»

«Для маленьких моделей дистилляция знаний эффективнее, чем обучение рассуждению с нуля через RL.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
GRPO
Group Relative Policy Optimization — алгоритм обучения с подкреплением, который оценивает ответы относительно группы генераций для одного запроса.
Pass@k
Метрика, оценивающая вероятность того, что хотя бы один из k сгенерированных ответов будет верным.
Chain of Thought (CoT)
Метод побуждения модели записывать промежуточные шаги рассуждения перед выдачей финального ответа.
SFT
Supervised Fine-Tuning — этап дообучения модели на высококачественных примерах 'запрос-ответ'.
Distillation
Процесс обучения компактной модели на выходных данных более мощной 'модели-учителя'.
📊 Цифры
🗓 Хронология
  1. Сентябрь 2024 Релиз OpenAI o1-preview, начало эры моделей рассуждения.
  2. Январь 2025 Публикация DeepSeek R1, доказательство эффективности GRPO.
  3. Март 2025 Выход статьи DAPO, решающей проблему избыточной длины ответов LLM.
⚖️ Другая сторона
Искусственный интеллект DeepSeek R1 GRPO Chain of Thought Stanford University LLM Reasoning