Дэнни Чжоу из Google DeepMind: как большие языковые модели на самом деле учатся рассуждать

Stanford Online 83,6 тыс. 1 ч 6 мин 4 мин 21.05.2025
Главное

В рамках курса Stanford CS25 (V5) выступил Дэнни Чжоу (Denny Zhou), основатель команды по исследованию рассуждений (Reasoning) в Google DeepMind. В своей лекции он представил глубокий анализ того, как большие языковые модели (LLM) преодолевают путь от простого предсказания следующего токена к сложным когнитивным процессам, и почему «магия» рассуждений на самом деле сводится к фундаментальным принципам машинного обучения.

🧠 Что такое рассуждение в понимании LLM? 1:28

Дэнни Чжоу подчеркивает, что споры о том, «умеют ли модели думать», часто бессмысленны без четкого определения. Для его команды «рассуждение» — это вполне конкретный технический термин: наличие промежуточных токенов (шагов) между входным запросом (input) и финальным ответом (output) .

Этот концепт не нов. Еще в 2017 году в Google DeepMind вышла статья о решении математических задач с помощью промежуточных шагов на естественном языке. В то время как большинство исследователей полагались на символьный подход или поиск, эта работа стала предвестником современной эпохи LLM . Для демонстрации Дэнни Чжоу использует задачу «Конкатенация последних букв»:

По словам спикера, модели — это предсказательные машины, а не люди. Однако теоретически доказано (совместно с профессором Stanford Тимом Рафгарденом), что даже трансформеры константного размера могут решать любые задачи, разрешимые булевыми цепями, если им позволить генерировать достаточное количество промежуточных токенов .

🔓 Миф о неспособности предобученных моделей к логике 7:07

Существует популярное мнение, что предобученные (pre-trained) модели не способны рассуждать без специальных техник вроде Chain of Thought (CoT) или дополнительного дообучения (fine-tuning). Дэнни Чжоу утверждает, что это заблуждение .

Способность к рассуждению уже заложена в физику весов предобученной модели; проблема заключается в стандартном процессе декодирования (Greedy Decoding). Когда мы просим модель решить задачу с подвохом (например, про количество яблок), жадное декодирование выбирает самый вероятный первый токен ответа, который часто ведет в тупик .

Если же исследовать пространство ответов за пределами первого кандидата, можно обнаружить, что правильные логические цепочки уже присутствуют в облаке вероятностей . Метод CoT Decoding, разработанный командой Чжоу, заключается в двух шагах:

  1. Рассмотрение нескольких альтернативных путей генерации.
  2. Выбор пути с наивысшей уверенностью (confidence) в финальном ответе .

🛠️ Эволюция промптинга: от «Думай шаг за шагом» к RL 12:47

Чтобы заставить модель выдавать логические цепочки по умолчанию, исследователи разработали несколько методов управления распределением вероятностей на выходе:

Дэнни Чжоу предупреждает: «Не масштабируйте слепо». Если парадигма (SFT на данных человека) неверна, увеличение объема данных не поможет .

🔄 Революция самосовершенствования (Self-Improvement) 20:42

Настоящий прорыв произошел, когда исследователи заменили человеческие данные данными, сгенерированными самой моделью. Процесс выглядит так:

  1. Модель генерирует множество вариантов решения задачи.
  2. С помощью автоматического верификатора (например, проверяя правильность ответа в математике) выбираются верные цепочки.
  3. Модель дообучается на собственных лучших рассуждениях .

Этот метод лег в основу алгоритма STaR и современных подходов RL Fine-tuning (как в моделях o1 от OpenAI или Gemini). Чжоу отмечает, что данные от модели работают лучше человеческих, потому что они ближе к распределению вероятностей самой модели — ей проще учиться на том, что она потенциально могла бы выдать .

Ключевым фактором успеха в RL-подходе является не столько алгоритм (PPO или Reinforce), сколько наличие надежного верификатора . К сожалению, это ограничивает применение метода в творческих задачах (Creative Writing), где нет однозначно правильного ответа .

📊 Математика против интуиции: Self-Consistency 39:53

Большинство людей воспринимают LLM как помощников, но Чжоу призывает смотреть на них через призму математики. В стандартном декодировании мы ищем максимальную вероятность ответа. Однако с точки зрения теории вероятностей, правильнее использовать маргинализацию: суммировать вероятности всех возможных путей рассуждения, ведущих к одному и тому же ответу .

Так появился метод Self-Consistency:

  1. Сэмплируем (генерируем) 40–100 разных цепочек рассуждений для одного вопроса.
  2. Считаем, какой финальный ответ встречается чаще всего.
  3. Выбираем самый популярный ответ (Majority Vote).

Этот простой метод дает колоссальный прирост производительности. На тесте GSM8K точность модели GPT-3 подскочила с 33% до 75%, а PaLM 2 достигла 92% . Это и есть «масштабирование во время инференса» (Inference-time scaling) — чем больше попыток вы даете модели, тем умнее она кажется .

🔍 Поиск vs Обучение: «Горький урок» современности 58:34

В финале лекции Дэнни Чжоу коснулся дискуссии о месте классического поиска (Search) в эпоху нейросетей. Ричард Саттон в своей знаменитой статье «The Bitter Lesson» утверждал, что масштабируемы только обучение и поиск.

Дэнни Чжоу уточняет эту позицию: обучение масштабируемо абсолютно, а поиск является лишь инструментом (Tool Use) . Современные модели, такие как Gemini 2.0 Thinking, способны имитировать процесс поиска внутри естественного языка, не прибегая к внешним алгоритмам перебора . Они приходят к выводам, анализируя свойства чисел (например, замечая, что 2025 — это 45 в квадрате), как это делал бы талантливый математик .

Подводя итоги, исследователь подчеркнул, что истина всегда проще, чем кажется. Ключ к рассуждениям ИИ — это не попытка скопировать человеческий мозг, а грамотное использование вероятностных распределений и автоматической верификации .

💬 Цитаты

«Масштабирование обучения — это всё, что нам нужно. Поиск — это лишь частный случай использования инструментов.»

Дэнни Чжоу (Denny Zhou) 59:56

«Истина всегда оказывается проще, чем вы думали. Это особенно верно для исследований в области ИИ.»

Дэнни Чжоу (Denny Zhou) 57:39
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Chain of Thought (CoT)
Метод промптинга, побуждающий модель разбивать сложную задачу на последовательные логические шаги.
Greedy Decoding
Алгоритм генерации текста, при котором на каждом шаге выбирается только один самый вероятный следующий токен.
Self-Consistency
Техника, при которой модель генерирует несколько вариантов решения, и финальным ответом выбирается наиболее часто встречающийся результат.
📊 Цифры
🗓 Хронология
  1. 2017 DeepMind публикует работу об использовании естественного языка для решения математических задач.
  2. 2021 OpenAI выпускает датасет GSM8K для калибровки математических способностей моделей.
  3. 2024 Google выпускает Gemini 2.0 с продвинутым режимом 'Thinking'.
⚖️ Другая сторона
Искусственный интеллект Denny Zhou Google DeepMind Chain of Thought Reinforcement Learning Gemini