В рамках курса Stanford CS25 (V5) выступил Дэнни Чжоу (Denny Zhou), основатель команды по исследованию рассуждений (Reasoning) в Google DeepMind. В своей лекции он представил глубокий анализ того, как большие языковые модели (LLM) преодолевают путь от простого предсказания следующего токена к сложным когнитивным процессам, и почему «магия» рассуждений на самом деле сводится к фундаментальным принципам машинного обучения.
🧠 Что такое рассуждение в понимании LLM? 1:28
Дэнни Чжоу подчеркивает, что споры о том, «умеют ли модели думать», часто бессмысленны без четкого определения. Для его команды «рассуждение» — это вполне конкретный технический термин: наличие промежуточных токенов (шагов) между входным запросом (input) и финальным ответом (output) .
Этот концепт не нов. Еще в 2017 году в Google DeepMind вышла статья о решении математических задач с помощью промежуточных шагов на естественном языке. В то время как большинство исследователей полагались на символьный подход или поиск, эта работа стала предвестником современной эпохи LLM . Для демонстрации Дэнни Чжоу использует задачу «Конкатенация последних букв»:
- Задача: Соединить последние буквы слов в фразе «artificial intelligence».
- Без рассуждений: Модель сразу выдает «L E» (и часто ошибается).
- С рассуждениями: Модель пишет: «Последняя буква artificial — L. Последняя буква intelligence — E. Результат: L E» .
По словам спикера, модели — это предсказательные машины, а не люди. Однако теоретически доказано (совместно с профессором Stanford Тимом Рафгарденом), что даже трансформеры константного размера могут решать любые задачи, разрешимые булевыми цепями, если им позволить генерировать достаточное количество промежуточных токенов .
🔓 Миф о неспособности предобученных моделей к логике 7:07
Существует популярное мнение, что предобученные (pre-trained) модели не способны рассуждать без специальных техник вроде Chain of Thought (CoT) или дополнительного дообучения (fine-tuning). Дэнни Чжоу утверждает, что это заблуждение .
Способность к рассуждению уже заложена в физику весов предобученной модели; проблема заключается в стандартном процессе декодирования (Greedy Decoding). Когда мы просим модель решить задачу с подвохом (например, про количество яблок), жадное декодирование выбирает самый вероятный первый токен ответа, который часто ведет в тупик .
Если же исследовать пространство ответов за пределами первого кандидата, можно обнаружить, что правильные логические цепочки уже присутствуют в облаке вероятностей . Метод CoT Decoding, разработанный командой Чжоу, заключается в двух шагах:
- Рассмотрение нескольких альтернативных путей генерации.
- Выбор пути с наивысшей уверенностью (confidence) в финальном ответе .
🛠️ Эволюция промптинга: от «Думай шаг за шагом» к RL 12:47
Чтобы заставить модель выдавать логические цепочки по умолчанию, исследователи разработали несколько методов управления распределением вероятностей на выходе:
- Few-shot CoT: Предоставление модели примеров задач с подробным решением. Модель копирует стиль и начинает рассуждать .
- Zero-shot CoT («Let’s think step by step»): Магическая фраза, которая резко повышает качество ответов. Чжоу признается, что сначала посчитал эту идею шуткой, пока не увидел её эффективность на модели PaLM .
- Supervised Fine-Tuning (SFT): Обучение на созданных людьми цепочках рассуждений. Главный минус — такие модели плохо обобщают знания за пределы тренировочного набора .
Дэнни Чжоу предупреждает: «Не масштабируйте слепо». Если парадигма (SFT на данных человека) неверна, увеличение объема данных не поможет .
🔄 Революция самосовершенствования (Self-Improvement) 20:42
Настоящий прорыв произошел, когда исследователи заменили человеческие данные данными, сгенерированными самой моделью. Процесс выглядит так:
- Модель генерирует множество вариантов решения задачи.
- С помощью автоматического верификатора (например, проверяя правильность ответа в математике) выбираются верные цепочки.
- Модель дообучается на собственных лучших рассуждениях .
Этот метод лег в основу алгоритма STaR и современных подходов RL Fine-tuning (как в моделях o1 от OpenAI или Gemini). Чжоу отмечает, что данные от модели работают лучше человеческих, потому что они ближе к распределению вероятностей самой модели — ей проще учиться на том, что она потенциально могла бы выдать .
Ключевым фактором успеха в RL-подходе является не столько алгоритм (PPO или Reinforce), сколько наличие надежного верификатора . К сожалению, это ограничивает применение метода в творческих задачах (Creative Writing), где нет однозначно правильного ответа .
📊 Математика против интуиции: Self-Consistency 39:53
Большинство людей воспринимают LLM как помощников, но Чжоу призывает смотреть на них через призму математики. В стандартном декодировании мы ищем максимальную вероятность ответа. Однако с точки зрения теории вероятностей, правильнее использовать маргинализацию: суммировать вероятности всех возможных путей рассуждения, ведущих к одному и тому же ответу .
Так появился метод Self-Consistency:
- Сэмплируем (генерируем) 40–100 разных цепочек рассуждений для одного вопроса.
- Считаем, какой финальный ответ встречается чаще всего.
- Выбираем самый популярный ответ (Majority Vote).
Этот простой метод дает колоссальный прирост производительности. На тесте GSM8K точность модели GPT-3 подскочила с 33% до 75%, а PaLM 2 достигла 92% . Это и есть «масштабирование во время инференса» (Inference-time scaling) — чем больше попыток вы даете модели, тем умнее она кажется .
🔍 Поиск vs Обучение: «Горький урок» современности 58:34
В финале лекции Дэнни Чжоу коснулся дискуссии о месте классического поиска (Search) в эпоху нейросетей. Ричард Саттон в своей знаменитой статье «The Bitter Lesson» утверждал, что масштабируемы только обучение и поиск.
Дэнни Чжоу уточняет эту позицию: обучение масштабируемо абсолютно, а поиск является лишь инструментом (Tool Use) . Современные модели, такие как Gemini 2.0 Thinking, способны имитировать процесс поиска внутри естественного языка, не прибегая к внешним алгоритмам перебора . Они приходят к выводам, анализируя свойства чисел (например, замечая, что 2025 — это 45 в квадрате), как это делал бы талантливый математик .
Подводя итоги, исследователь подчеркнул, что истина всегда проще, чем кажется. Ключ к рассуждениям ИИ — это не попытка скопировать человеческий мозг, а грамотное использование вероятностных распределений и автоматической верификации .