Бен Приставски: «Рассуждения LLM — это мост между разрозненными фрагментами данных»

The TWIML AI Podcast 1,9 тыс. 29 мин 4 мин 26.02.2024
Главное

Почему модели ИИ работают лучше, когда рассуждают вслух? Исследователь из Стэнфордского университета Бен Приставски (Ben Prystawski) в интервью для The TWIML AI Podcast объясняет, как структура обучающих данных и «локальность опыта» превращают простые языковые предсказания в сложные логические цепочки.

🧠 Природа рассуждений в ИИ: промежуточные вычисления 4:54

В современной науке об искусственном интеллекте термины «рассуждение» (reasoning) и «мышление» часто вызывают споры. Бен Приставски предлагает прагматичное и широкое определение: рассуждение — это промежуточные вычисления .

По мнению Приставски, когда LLM генерирует токены промежуточных рассуждений (Chain-of-Thought) перед выдачей финального ответа, это технически и является процессом рассуждения . Однако существует ключевое различие между человеком и ИИ:

  1. Люди могут рассуждать молча (внутренняя речь) или вслух .
  2. Языковые модели обучаются исключительно на тех рассуждениях, которые были вербализированы человеком и попали в обучающую выборку (тексты, учебники, код). То, что осталось в голове у автора текста, для модели не существует .

📊 Исследование «Why Think Step-by-Step?»: механизмы локальности 8:45

В своей работе «Why think step-by-step? Reasoning emerges from the locality of experience», представленной на конференции NeurIPS 2023, Бен Приставски и его коллеги исследовали, какие именно свойства данных делают цепочки рассуждений эффективными .

Для эксперимента исследователи использовали синтетическую среду — байесовские сети (Bayesian Nets), где переменные принимают значения 0 или 1 . Это позволило математически точно измерить эффективность трех типов «оценщиков» (estimators):

  1. Direct Prediction (Прямое предсказание): Модель должна сразу предсказать вероятность переменной B, зная переменную A .
  2. Free Generation (Свободная генерация): Модель сама генерирует любые промежуточные переменные, которые «вспомнит», прежде чем прийти к ответу . Этот метод схож с подходом self-consistency, где уменьшение дисперсии достигается за счет многократного сэмплирования цепочек рассуждений .
  3. Scaffolded Generation (Скелетная генерация): Идеальный сценарий, где модели подсказывают минимальный набор переменных, необходимых для логического вывода. Это выступает в качестве контрольного условия («золотого стандарта») .

Ключевой фактор: Локальность данных

Исследователи сравнили два способа обучения :

Результат показал, что в условиях локально структурированных данных (которые больше похожи на реальные человеческие тексты) свободная генерация рассуждений работает значительно лучше прямого предсказания. Она позволяет «связать» отдаленные переменные через цепочку близких соседей, которые модель уже видела вместе .

🌍 Аналогия с Парижем и климатом 13:15

Бен Приставски приводит наглядный пример того, как локальность работает в реальном мире. Представьте, что модель учится на Википедии:

Если модель заставить отвечать мгновенно (прямое предсказание), она может ошибиться. Но если она применит Chain-of-Thought («Столица Франции — Париж, а в Париже океанический климат»), она свяжет два локальных кластера знаний и даст верный ответ . Таким образом, рассуждение — это мост между разрозненными фрагментами опыта, которые никогда не встречались вместе, но связаны через промежуточные звенья .

🧬 Связь с когнитивной наукой и обучением человека 20:44

Исследователь полагает, что полезность рассуждений для людей проистекает из структуры нашего восприятия. Мы видим мир с перспективы первого лица — это всегда очень маленький, локальный набор стимулов . Наш мозг приучен связывать эти локальные фрагменты в единую картину.

Приставски и его научный руководитель Ноа Гудман (Noah Goodman) планируют провести психологические эксперименты :

🛠 Практические выводы для разработчиков ИИ 24:17

Хотя работа носит теоретический характер, Бен Приставски выделяет несколько прикладных идей:

  1. Эффективность обучения (Data Efficiency): На локально структурированных данных модели учатся рассуждать гораздо быстрее. Им требуется меньше токенов, чтобы понять взаимосвязи, чем при попытке охватить всё и сразу .
  2. Курирование данных: Вместо того чтобы просто подавать модели случайные документы из интернета (где «локальность» часто нарушается при переходе от одного сайта к другому), эффективнее было бы подавать связанные цепочки. Например, статью из Википедии и сразу за ней — статьи, на которые она ссылается .
  3. Синтетические наборы данных: Идея о том, что LLM могут генерировать более плотные и богатые учебные примеры с рассуждениями для обучения других (или самих себя), кажется Приставски многообещающей. Это уже реализовано в таких работах, как алгоритм STaR (Self-Taught Reasoner), где модель дообучается на собственных успешных цепочках рассуждений .

В конечном итоге, рассуждения в ИИ — это не магия «сознания», а математическая необходимость, вызванная тем, что мир в данных представлен фрагментарно. Чтобы увидеть целое, модели нужно научиться проговаривать связи между частями .

💬 Цитаты

«Рассуждение — это промежуточное вычисление. Вы можете ответить на вопрос напрямую, но для математики вам нужен внутренний ментальный процесс.»

Бен Приставски 05:35

«Языковые модели обучаются на том, как люди думают вслух. Но они не видят тех рассуждений, которые остались у человека в голове.»

Бен Приставски 08:06
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Chain-of-Thought (CoT)
Метод побуждения модели к пошаговому решению задачи перед выдачей итогового ответа.
Локальность данных (Locality of experience)
Свойство данных, при котором наиболее сильные зависимости существуют между переменными, находящимися близко друг к другу в структуре.
Байесовские сети
Графические модели вероятностей, используемые в данном исследовании для создания синтетической обучающей среды.
Self-consistency
Техника, при которой модель генерирует несколько вариантов рассуждений и выбирает наиболее часто встречающийся ответ.
📊 Цифры
🗓 Хронология
  1. 1990-е Выход книги Майкла Томаселло о культурных истоках человеческого познания.
  2. 2022 Публикация знаковой работы Джейсона Вея о цепочках рассуждений (Chain-of-Thought).
  3. 2023 Бен Приставски презентует статью на конференции NeurIPS.
⚖️ Другая сторона
Искусственный интеллект Бен Приставски Chain-of-Thought локальность данных байесовские сети The TWIML AI Podcast