В лекции Стэнфордского университета курса CME295, посвященной трансформерам и большим языковым моделям (LLM), лекторы Афшин и Шервин подробно разбирают одну из самых актуальных тем 2024–2025 годов — LLM Reasoning (способность моделей к рассуждению). В отличие от «ванильных» моделей, которые просто предсказывают следующий токен, модели рассуждений способны разбивать сложные задачи на этапы, проверять собственные гипотезы и демонстрировать прогресс в математике и программировании, сопоставимый с уровнем лучших экспертов-людей.
🧠 Что такое рассуждение в контексте LLM? 13:35
По мнению Афшина, в индустрии нет единого определения «рассуждения», однако рабочее определение в рамках курса — это способность решать проблемы через многошаговый процесс . Если обычный вопрос на знание фактов (например, код курса в Стэнфорде) требует только обращения к памяти, то задача по математике или кодингу требует декомпозиции на более простые, выполнимые подзадачи .
Ключевые отличия моделей рассуждения:
- Цепочка мыслей (Chain of Thought, CoT): Вместо мгновенного ответа модель сначала генерирует скрытую или явную цепочку размышлений .
- Бюджет вычислений (Compute Budget): Лектор подчеркивает, что генерация дополнительных токенов в CoT — это, по сути, передача модели большего объема вычислительных мощностей на один запрос .
- Верифицируемость: Рассуждения чаще всего применяются в областях, где результат можно проверить объективно: в математике (совпадение ответа с эталоном) и программировании (прохождение тестов) .
📉 Слабости традиционных («ванильных») моделей 9:44
Афшин выделяет четыре критические проблемы классических LLM, которые решаются переходом к моделям рассуждения:
- Ограниченное мышление: Модели часто «теряются» в сложных математических доказательствах, так как обучены просто максимизировать вероятность следующего токена .
- Статичные знания: Интеллект модели ограничен датой отсечки (cutoff date) тренировочных данных. Без внешнего поиска (RAG) она не знает о событиях вчерашнего дня .
- Отсутствие действий: Традиционные модели хороши в разговорах, но не умеют выполнять действия в реальном мире (action-oriented tasks) .
- Сложность оценки: Свободный текст трудно оценивать метриками вроде BLEU или ROUGE, которые использовались в старом NLP .
📊 Метрики и бенчмарки: как измерить «ум» модели 28:09
Для оценки способностей к рассуждению используются специфические наборы данных и методы подсчета:
- Coding: HumanEval (100+ задач, написанных людьми), CodeForces (олимпиадное программирование) и SWE-bench (реальные проблемы из GitHub-репозиториев) .
- Math: AIME (квалификационный экзамен для математических олимпиад США) и GSM8K (задачи уровня начальной школы) .
Метрика Pass@k
Афшин подробно разбирает метрику pass@k — вероятность того, что хотя бы одна из k попыток генерации кода или ответа будет верной .
Математические нюансы метрики:
- Чтобы оценка была менее шумной, генерируется n образцов (где n > k), из которых выбирается количество успешных c .
- Лектор выводит формулу оценки через сочетания, основанную на выборке без возвращения .
- Температура: При оценке важно учитывать параметр температуры. Низкая температура (T=0) дает стабильный, но однообразный результат. Высокая (T=0.8–1.2) увеличивает разнообразие (diversity), что повышает шансы на успех при больших k, но может снизить общее качество ответов .
⚙️ Технология обучения: переход от PPO к GRPO 58:34
Основной прорыв в обучении моделей рассуждений связан с отказом от обучения на данных, созданных людьми (SFT), в пользу обучения с подкреплением (RL). По словам Афшина, SFT плохо подходит для обучения рассуждениям, так как модель может мыслить иначе, чем человек, и нам важнее научить её находить верный путь самостоятельно .
GRPO (Group Relative Policy Optimization)
В 2024 году был представлен алгоритм GRPO, ставший стандартом для таких моделей, как DeepSeek R1 .
Главные отличия GRPO от классического PPO:
- Отсутствие модели ценности (Value Function): В PPO нужно параллельно обучать нейросеть-критика, которая предсказывает награду. Это требует огромных ресурсов памяти. В GRPO критика нет .
- Групповое сравнение: Модель генерирует группу ответов на один и тот же вопрос. Преимущество (advantage) каждого ответа вычисляется путем сравнения его награды со средним значением по всей группе .
- Экономия ресурсов: Поскольку не нужно хранить веса Value-модели, процесс становится значительно дешевле и быстрее .
Награды (Rewards)
В процессе RL используются два типа проверяемых (verifiable) наград:
- Награда за точность: Верно ли решена задача .
- Награда за формат: Использует ли модель специальные токены (например,
<thought>и<answer>) для структурирования своих мыслей .
⚖️ Проблема «раздувания» ответов (Length Explosion) 1:16:50
Афшин отмечает интересный феномен: в процессе RL-обучения длина цепочки рассуждений модели начинает бесконтрольно расти . Это происходит потому, что в стандартных формулах RL (включая GRPO) существует скрытое смещение: короткие плохие ответы наказываются сильнее, чем длинные плохие ответы .
Для решения этой проблемы сообщество предложило модификации:
- DAPO: Уравнивает вклад каждого токена в функцию потерь независимо от длины последовательности .
- Dr. GRPO: Предлагает полностью убрать коэффициент деления на длину, чтобы остановить «инфляцию» токенов .
🇨🇳 Кейс DeepSeek R1: рецепт создания мощного ИИ 1:29:40
Шервин разбирает пайплайн обучения модели DeepSeek R1, которая в январе 2025 года шокировала индустрию, догнав по производительности закрытые модели OpenAI .
Этап 1: DeepSeek R1-Zero
Это был «чистый» эксперимент: модель обучали только через RL прямо из базовой (pre-trained) модели без участия людей. Модель научилась рассуждать, но её ответы были трудночитаемыми, она смешивала языки и путалась в синтаксисе .
Этап 2: Полноценная DeepSeek R1
Чтобы исправить ошибки R1-Zero, инженеры применили многоступенчатый подход :
- Cold Start: Небольшое количество (тысячи) высококачественных цепочек рассуждений, написанных или отредактированных людьми, подается в SFT .
- RL-обучение: Применяется GRPO с наградами за точность, формат и «языковую последовательность» (чтобы модель не перескакивала с английского на китайский) .
- Rejection Sampling (SFT-2): С помощью обученной на шаге 2 модели генерируются сотни тысяч ответов. Лучшие из них (проверенные судьями-LLM) отбираются для финального обучения модели, которая становится не только умной, но и полезным ассистентом в обычных темах .
- Финальный RL: Доводка модели на критериях полезности (helpfulness) и безопасности (harmlessness) .
📉 Дистилляция: как сделать маленькие модели умными 1:43:30
Шервин объясняет, как знания гигантских моделей (вроде R1 на 600 млрд параметров) переносятся в маленькие (например, Llama 8B). Оказалось, что для маленьких моделей гораздо эффективнее обучаться на «дистиллированных» данных от большой модели (SFT), чем пытаться выучить рассуждения с нуля через RL . Таким образом, даже компактные модели могут демонстрировать продвинутую логику, просто имитируя структуру ответов своих «старших собратьев» .