# Дэнни Чжоу из Google DeepMind: как большие языковые модели на самом деле учатся рассуждать

Источник: https://www.youtube.com/watch?v=ebnX5Ur1hBk
Канал: Stanford Online
Опубликовано: 21.05.2025

---

В рамках курса Stanford CS25 (V5) выступил **Дэнни Чжоу (Denny Zhou)**, основатель команды по исследованию рассуждений (Reasoning) в Google DeepMind. В своей лекции он представил глубокий анализ того, как большие языковые модели (LLM) преодолевают путь от простого предсказания следующего токена к сложным когнитивным процессам, и почему «магия» рассуждений на самом деле сводится к фундаментальным принципам машинного обучения.

## 🧠 Что такое рассуждение в понимании LLM?
[[JUMP:01:28]]

Дэнни Чжоу подчеркивает, что споры о том, «умеют ли модели думать», часто бессмысленны без четкого определения. Для его команды «рассуждение» — это вполне конкретный технический термин: наличие промежуточных токенов (шагов) между входным запросом (input) и финальным ответом (output) [01:57].

Этот концепт не нов. Еще в 2017 году в Google DeepMind вышла статья о решении математических задач с помощью промежуточных шагов на естественном языке. В то время как большинство исследователей полагались на символьный подход или поиск, эта работа стала предвестником современной эпохи LLM [02:26]. Для демонстрации Дэнни Чжоу использует задачу «Конкатенация последних букв»:

*   **Задача:** Соединить последние буквы слов в фразе «artificial intelligence».
*   **Без рассуждений:** Модель сразу выдает «L E» (и часто ошибается).
*   **С рассуждениями:** Модель пишет: «Последняя буква artificial — L. Последняя буква intelligence — E. Результат: L E» [03:46].

По словам спикера, модели — это предсказательные машины, а не люди. Однако теоретически доказано (совместно с профессором Stanford Тимом Рафгарденом), что даже трансформеры константного размера могут решать любые задачи, разрешимые булевыми цепями, если им позволить генерировать достаточное количество промежуточных токенов [05:40].

## 🔓 Миф о неспособности предобученных моделей к логике
[[JUMP:07:07]]

Существует популярное мнение, что предобученные (pre-trained) модели не способны рассуждать без специальных техник вроде Chain of Thought (CoT) или дополнительного дообучения (fine-tuning). Дэнни Чжоу утверждает, что это заблуждение [07:12]. 

Способность к рассуждению уже заложена в физику весов предобученной модели; проблема заключается в стандартном процессе декодирования (Greedy Decoding). Когда мы просим модель решить задачу с подвохом (например, про количество яблок), жадное декодирование выбирает самый вероятный первый токен ответа, который часто ведет в тупик [08:05]. 

Если же исследовать пространство ответов за пределами первого кандидата, можно обнаружить, что правильные логические цепочки уже присутствуют в облаке вероятностей [09:26]. Метод **CoT Decoding**, разработанный командой Чжоу, заключается в двух шагах:

1.  Рассмотрение нескольких альтернативных путей генерации.
2.  Выбор пути с наивысшей уверенностью (confidence) в финальном ответе [11:53].

## 🛠️ Эволюция промптинга: от «Думай шаг за шагом» к RL
[[JUMP:12:47]]

Чтобы заставить модель выдавать логические цепочки по умолчанию, исследователи разработали несколько методов управления распределением вероятностей на выходе:

*   **Few-shot CoT:** Предоставление модели примеров задач с подробным решением. Модель копирует стиль и начинает рассуждать [13:16].
*   **Zero-shot CoT («Let’s think step by step»):** Магическая фраза, которая резко повышает качество ответов. Чжоу признается, что сначала посчитал эту идею шуткой, пока не увидел её эффективность на модели PaLM [14:20].
*   **Supervised Fine-Tuning (SFT):** Обучение на созданных людьми цепочках рассуждений. Главный минус — такие модели плохо обобщают знания за пределы тренировочного набора [19:07].

Дэнни Чжоу предупреждает: «Не масштабируйте слепо». Если парадигма (SFT на данных человека) неверна, увеличение объема данных не поможет [19:34].

## 🔄 Революция самосовершенствования (Self-Improvement)
[[JUMP:20:42]]

Настоящий прорыв произошел, когда исследователи заменили человеческие данные данными, сгенерированными самой моделью. Процесс выглядит так:

1.  Модель генерирует множество вариантов решения задачи.
2.  С помощью автоматического верификатора (например, проверяя правильность ответа в математике) выбираются верные цепочки.
3.  Модель дообучается на собственных лучших рассуждениях [21:36].

Этот метод лег в основу алгоритма **STaR** и современных подходов **RL Fine-tuning** (как в моделях o1 от OpenAI или Gemini). Чжоу отмечает, что данные от модели работают лучше человеческих, потому что они ближе к распределению вероятностей самой модели — ей проще учиться на том, что она потенциально могла бы выдать [26:53]. 

Ключевым фактором успеха в RL-подходе является не столько алгоритм (PPO или Reinforce), сколько наличие надежного верификатора [25:15]. К сожалению, это ограничивает применение метода в творческих задачах (Creative Writing), где нет однозначно правильного ответа [37:56].

## 📊 Математика против интуиции: Self-Consistency
[[JUMP:39:53]]

Большинство людей воспринимают LLM как помощников, но Чжоу призывает смотреть на них через призму математики. В стандартном декодировании мы ищем максимальную вероятность ответа. Однако с точки зрения теории вероятностей, правильнее использовать маргинализацию: суммировать вероятности всех возможных путей рассуждения, ведущих к одному и тому же ответу [42:26].

Так появился метод **Self-Consistency**:

1.  Сэмплируем (генерируем) 40–100 разных цепочек рассуждений для одного вопроса.
2.  Считаем, какой финальный ответ встречается чаще всего.
3.  Выбираем самый популярный ответ (Majority Vote).

Этот простой метод дает колоссальный прирост производительности. На тесте GSM8K точность модели GPT-3 подскочила с 33% до 75%, а PaLM 2 достигла 92% [45:10]. Это и есть «масштабирование во время инференса» (Inference-time scaling) — чем больше попыток вы даете модели, тем умнее она кажется [46:47].

## 🔍 Поиск vs Обучение: «Горький урок» современности
[[JUMP:58:34]]

В финале лекции Дэнни Чжоу коснулся дискуссии о месте классического поиска (Search) в эпоху нейросетей. Ричард Саттон в своей знаменитой статье «The Bitter Lesson» утверждал, что масштабируемы только обучение и поиск. 

Дэнни Чжоу уточняет эту позицию: обучение масштабируемо абсолютно, а поиск является лишь инструментом (Tool Use) [37:12]. Современные модели, такие как Gemini 2.0 Thinking, способны имитировать процесс поиска внутри естественного языка, не прибегая к внешним алгоритмам перебора [35:13]. Они приходят к выводам, анализируя свойства чисел (например, замечая, что 2025 — это 45 в квадрате), как это делал бы талантливый математик [34:17].

Подводя итоги, исследователь подчеркнул, что истина всегда проще, чем кажется. Ключ к рассуждениям ИИ — это не попытка скопировать человеческий мозг, а грамотное использование вероятностных распределений и автоматической верификации [58:06].