Бен Приставски: «Рассуждения LLM — это мост между разрозненными фрагментами данных»

Почему модели ИИ работают лучше, когда рассуждают вслух? Исследователь из Стэнфордского университета Бен Приставски (Ben Prystawski) в интервью для The TWIML AI Podcast объясняет, как структура обучающих данных и «локальность опыта» превращают простые языковые предсказания в сложные логические цепочки.

🧠 Природа рассуждений в ИИ: промежуточные вычисления 4:54

В современной науке об искусственном интеллекте термины «рассуждение» (reasoning) и «мышление» часто вызывают споры. Бен Приставски предлагает прагматичное и широкое определение: рассуждение — это промежуточные вычисления .

Прямое предсказание: Если спросить человека, что он ел на завтрак, ответ («я съел яблоко») дается мгновенно без сложной ментальной обработки .
Логическая цепочка: Если задать сложный математический вопрос, прямой ответ с высокой вероятностью будет неверным. Чтобы получить правильный результат, необходимо пройти через ряд внутренних ментальных процессов или записать шаги решения на бумаге .

По мнению Приставски, когда LLM генерирует токены промежуточных рассуждений (Chain-of-Thought) перед выдачей финального ответа, это технически и является процессом рассуждения . Однако существует ключевое различие между человеком и ИИ:

Люди могут рассуждать молча (внутренняя речь) или вслух .
Языковые модели обучаются исключительно на тех рассуждениях, которые были вербализированы человеком и попали в обучающую выборку (тексты, учебники, код). То, что осталось в голове у автора текста, для модели не существует .

📊 Исследование «Why Think Step-by-Step?»: механизмы локальности 8:45

В своей работе «Why think step-by-step? Reasoning emerges from the locality of experience», представленной на конференции NeurIPS 2023, Бен Приставски и его коллеги исследовали, какие именно свойства данных делают цепочки рассуждений эффективными .

Для эксперимента исследователи использовали синтетическую среду — байесовские сети (Bayesian Nets), где переменные принимают значения 0 или 1 . Это позволило математически точно измерить эффективность трех типов «оценщиков» (estimators):

Direct Prediction (Прямое предсказание): Модель должна сразу предсказать вероятность переменной B, зная переменную A .
Free Generation (Свободная генерация): Модель сама генерирует любые промежуточные переменные, которые «вспомнит», прежде чем прийти к ответу . Этот метод схож с подходом self-consistency, где уменьшение дисперсии достигается за счет многократного сэмплирования цепочек рассуждений .
Scaffolded Generation (Скелетная генерация): Идеальный сценарий, где модели подсказывают минимальный набор переменных, необходимых для логического вывода. Это выступает в качестве контрольного условия («золотого стандарта») .

Ключевой фактор: Локальность данных

Исследователи сравнили два способа обучения :

Fully Observed (Полностью наблюдаемые данные): Модель видит сразу все переменные в сети.
Locally Structured (Локально структурированные данные): Модель видит только «соседей» — переменные, которые тесно связаны друг с другом в небольших кластерах .

Результат показал, что в условиях локально структурированных данных (которые больше похожи на реальные человеческие тексты) свободная генерация рассуждений работает значительно лучше прямого предсказания. Она позволяет «связать» отдаленные переменные через цепочку близких соседей, которые модель уже видела вместе .

🌍 Аналогия с Парижем и климатом 13:15

Бен Приставски приводит наглядный пример того, как локальность работает в реальном мире. Представьте, что модель учится на Википедии:

В статьях о Франции часто упоминается, что ее столица — Париж.
В статьях о Париже часто упоминается, что там океанический климат.
Однако фраза «во Франции океанический климат в столице» может не встречаться в данных напрямую ни разу .

Если модель заставить отвечать мгновенно (прямое предсказание), она может ошибиться. Но если она применит Chain-of-Thought («Столица Франции — Париж, а в Париже океанический климат»), она свяжет два локальных кластера знаний и даст верный ответ . Таким образом, рассуждение — это мост между разрозненными фрагментами опыта, которые никогда не встречались вместе, но связаны через промежуточные звенья .

🧬 Связь с когнитивной наукой и обучением человека 20:44

Исследователь полагает, что полезность рассуждений для людей проистекает из структуры нашего восприятия. Мы видим мир с перспективы первого лица — это всегда очень маленький, локальный набор стимулов . Наш мозг приучен связывать эти локальные фрагменты в единую картину.

Приставски и его научный руководитель Ноа Гудман (Noah Goodman) планируют провести психологические эксперименты :

Сравнить ответы людей в условиях жесткого ограничения по времени (аналог прямого предсказания ИИ) и в условиях неограниченного времени на раздумья (аналог свободной генерации) .
Проверить, коррелирует ли преимущество «времени на раздумья» со статистической структурой информации, которую человек получал ранее .

🛠 Практические выводы для разработчиков ИИ 24:17

Хотя работа носит теоретический характер, Бен Приставски выделяет несколько прикладных идей:

Эффективность обучения (Data Efficiency): На локально структурированных данных модели учатся рассуждать гораздо быстрее. Им требуется меньше токенов, чтобы понять взаимосвязи, чем при попытке охватить всё и сразу .
Курирование данных: Вместо того чтобы просто подавать модели случайные документы из интернета (где «локальность» часто нарушается при переходе от одного сайта к другому), эффективнее было бы подавать связанные цепочки. Например, статью из Википедии и сразу за ней — статьи, на которые она ссылается .
Синтетические наборы данных: Идея о том, что LLM могут генерировать более плотные и богатые учебные примеры с рассуждениями для обучения других (или самих себя), кажется Приставски многообещающей. Это уже реализовано в таких работах, как алгоритм STaR (Self-Taught Reasoner), где модель дообучается на собственных успешных цепочках рассуждений .

В конечном итоге, рассуждения в ИИ — это не магия «сознания», а математическая необходимость, вызванная тем, что мир в данных представлен фрагментарно. Чтобы увидеть целое, модели нужно научиться проговаривать связи между частями .