Роберт Несс: «LLM зазубривают бенчмарки, а не мыслят причинно-следственно»

Большие языковые модели стремительно трансформируют индустрию искусственного интеллекта, однако вопрос об их способности к истинному причинно-следственному мышлению остается открытым. В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон обсудил эту проблему со старшим исследователем Microsoft Research Робертом Осазувой Нессом. В центре дискуссии оказалась недавняя научная работа эксперта, авторы которой попытались выяснить, где заканчивается банальное зазубривание текстов нейросетью и начинается подлинный логический вывод.

📊 Причинно-следственный анализ как фундамент ИИ нового поколения 0:12

Причинно-следственный анализ играет ключевую роль в самых разных научных дисциплинах — от эконометрики и эпидемиологии до статистики и естественных наук. Главная трудность здесь заключается в необходимости делать достоверные выводы на основе пассивных наблюдательных или экспериментальных данных, помня классический афоризм о том, что корреляция не означает причинность.

В последнее время этот инструмент стал объектом пристального внимания в сфере машинного обучения. Как объясняет Роберт Осазува Несс, исследователи стремятся использовать способность алгоритмов масштабироваться на огромные наборы данных. По мнению гостя, если конечной целью нашей индустрии является создание сильного искусственного интеллекта (AGI), то способность к причинно-следственному рассуждению (causal reasoning) должна стать его неотъемлемой частью. Главная задача ученых сегодня — научить интеллектуальных агентов делать корректные выводы, сопоставимые с человеческим базовым уровнем или соответствующими строгими стандартами логики.

🚀 Эксперименты с LLM: триумф на существующих бенчмарках 5:24

В своей новой работе Роберт Осазува Несс совместно с коллегами Амитом Шармой и Омри Кисманом из Microsoft Research, а также Чунхао Танем из Чикагского университета, протестировал возможности современных больших языковых моделей на стандартных причинно-следственных задачах. Одним из базовых тестов стало попарное выявление причинности (pairwise causal discovery). Модели давали два параметра (например, температура и высота над уровнем моря) и предлагали определить, что из них является причиной, а что — следствием. Ученые намеренно отбросили численные массивы данных, передав моделям исключительно названия переменных.

Результаты тестирования моделей от OpenAI оказались впечатляющими:

Попарное выявление причинности: модель GPT-4 продемонстрировала точность на уровне 97%, что означает прирост эффективности на 13 процентных пунктов по сравнению с предыдущим технологическим уровнем (state-of-the-art).
Контрфактуальное мышление: точность ответов достигла 92%, показав качественный скачок на 20 процентных пунктов.
Фактическая причинность (actual causality): правильные суждения были зафиксированы в 86% случаев.

При этом Роберт Осазува Несс подчеркивает важную закономерность: качественные результаты начали проявляться только по достижении моделями определенного размера. Прорыв наметился в линейке моделей после GPT-3, включая text-Davinci-03, GPT-3.5 Turbo и GPT-4. Как отмечает исследователь, до этого этапа нейросети (например, GPT-2) справлялись с тестами хуже, чем при случайном угадывании ответов. Подобный скачок напоминает гостю выводы известного исследования Microsoft «Sparks of AGI», где переход к GPT-4 обнажил совершенно новые, ранее отсутствовавшие эмерджентные способности.

🧠 Загадка эмерджентности и феномен зазубривания данных 14:13

Резкое появление у ИИ способности к логическим рассуждениям по мере масштабирования вызывает у Роберта Осазувы Несса смешанные чувства. С одной стороны, он согласен с концепцией эмерджентного поведения, при котором механизмы внимания и огромные объемы данных позволяют алгоритмам подниматься выше по иерархии абстракций. С другой стороны, эксперт признается, что эта ситуация заставляет его чувствовать себя неловко, поскольку механизмы работы этой способности остаются абсолютно неизученными.

По мнению гостя, традиционное сообщество исследователей причинно-следственных связей крайне консервативно в своих выводах, ведь на кону могут стоять человеческие жизни — например, при оценке эффективности медицинских вакцин. В таких условиях высокая точность на бенчмарках сама по себе не может служить надежным критерием качества. Исследователи обнаружили серьезную проблему: тестируемые бенчмарки были попросту заучены моделями в процессе обучения.

Чтобы проверить гипотезу о зазубривании, команда Несса провела тест на текстовое автодополнение (text completion test). Они загрузили в модель текстовое описание бенчмарка Тюбингена и ввели первые две ячейки из табличной строки данных. Нейросеть смогла предсказать содержимое следующей ячейки с точностью 60%. Это прямо доказывает, что массив данных Тюбингена находился в обучающей выборке OpenAI, смазывая чистоту эксперимента. По словам исследователя, бенчмарки хорошо оценивают способность модели формулировать ответ на основе уже имеющихся знаний, но они не позволяют понять, способна ли LLM автономно выводить новые причинно-следственные факты о мире.

🔍 Хрупкость логики LLM: от озонового слоя до «морского ушка» 23:05

При детальном анализе ошибок ИИ обнаружилась поразительная хрупкость его рассуждений. В тесте на выявление связи между радиацией и озоном модель пришла к неверному выводу, что озон является причиной радиации. Проанализировав «цепочку мыслей» (Chain of Thought) нейросети, ученые увидели, что она рассуждала о стратосфере: там истощение озонового слоя действительно приводит к росту солнечной радиации. Однако контекст задачи подразумевал земную поверхность, где искусственные источники радиации генерируют озон в воздухе. Роберт Осазува Несс отмечает, что модели критически не хватает умения задавать уточняющие вопросы в двусмысленных ситуациях.

Еще один яркий пример связан с биологическим датасетом о моллюсках абалонах (морское ушко). Модель безошибочно определила, что возраст моллюска является причиной увеличения его длины. Однако когда исследователи заменили слово «длина» (length) на синонимичное в данном контексте слово «диаметр» (diameter), LLM внезапно выдала ошибочный ответ. Как считает гость, эта аномалия наглядно подтверждает: действия алгоритма больше похожи на воспроизведение поверхностной памяти, чем на истинное понимание сути вещей.

Собеседники также выделили две ключевые уязвимости ИИ при решении бизнес-задач:

Эффект якоря (anchoring): если в промте предложить модели ложную траекторию рассуждений, она легко поддается манипуляции. В эксперименте с динамикой продаж за декабрь, где рост прибыли совпал с запуском рекламы, модель увлеченно расписала стратегию A/B-тестирования рекламного бюджета. При этом она полностью упустила из виду очевидный контекст — предпраздничный новогодний сезон, во время которого продажи растут лавинообразно сами по себе.
Имитация политкорректности: в гипотетическом сценарии автоматического отбора резюме модель способна сгенерировать безупречную, аргументированную цепочку рассуждений, якобы исключающую факторы гендера или расы. Однако, по мнению Несса, за этим красивым фасадом могут скрываться системные искажения, почерпнутые из токсичных пластов интернета, на которых обучалась сеть.

🛡️ Индуктивные смещения и Бритва Оккама в промт-инжиниринге 34:10

Чтобы заставить языковые модели абстрагироваться от зазубренных шаблонов и начать рассуждать глубже, авторы исследования обратились к механизму индуктивных смещений (inductive biases). В классическом машинном обучении эти смещения жестко закладываются в архитектуру (например, сверточные слои обеспечивают инвариантность к сдвигу). В причинно-следственном выводе смещения задаются в виде строгих математических допущений или направленных ациклических графов (DAG).

Преимущество LLM, по мнению Несса, состоит в возможности транслировать эти индуктивные смещения с помощью обычного человеческого языка. Ученые провели эксперимент, внедрив в систему промтов философский принцип Бритвы Оккама:

Сначала модель попросили составить лучший аргумент в пользу того, что переменная A вызывает переменную B.
Затем — зеркальный аргумент в пользу того, что B вызывает A.
В финальном промте ИИ должен был сопоставить оба аргумента и выбрать наиболее лаконичный, отсекающий лишние внешние факторы.

При тестировании на примере с моллюсками абалонами этот подход вскрыл интересную деталь. Пытаясь доказать ложную гипотезу (что длина тела увеличивает возраст), модель соорудила сложную, но логичную теорию о том, что длинные особи более конкурентоспособны в условиях ограниченных ресурсов, вытесняют сородичей и поэтому дольше живут. Применение Бритвы Оккама заставило систему отдать предпочтение простому и верному тезису: организмы растут по мере старения. Хотя точность GPT-4 при таком подходе снизилась до 85%, Роберт Осазува Несс считает этот результат куда более ценным, так как он базируется на логическом фильтре, а не на слепом копировании памяти.

🕸️ Построение сложных причинно-следственных графов без данных 37:26

Одним из самым многообещающих открытий исследования стала способность LLM конструировать масштабные причинно-следственных графы. В стандартной практике для этого требуются сложные статистические алгоритмы Causal Discovery, анализирующие массивы сухих цифр. Команда Несса провела эксперимент с нетривиальной структурой из 13–14 переменных, используя медицинский датасет по нейропатической боли со специфическими терминами (например, «правосторонняя радикулопатия L1» и «фарингеальный дискомфорт»).

Методология эксперимента выглядела следующим образом:

Ученые расширили попарную задачу, добавив третий вариант ответа: связь между объектами отсутствует.
Модель поочередно опрашивали обо всех возможных парах переменных.
Полученные ответы автоматически объединялись в единую сеть, игнорируя на начальном этапе математические ограничения на ацикличность.

Итоговые метрики графа (такие как F1-мера и структурное расстояние Хэмминга) оказались сопоставимы со специализированными алгоритмами глубокого обучения. Однако Роберт Осазува Несс делает важную оговорку: данный метод работает исключительно тогда, когда названия переменных семантически информативны для эксперта. Если зашифровать их абстрактными символами A, B, C и D, магия контекстного понимания LLM полностью исчезает.

🤝 Эра «причинно-следственного копилота» для практиков 41:38

На основе полученных данных Роберт Осазува Несс формулирует главный вывод своего исследования: большие языковые модели сегодня не готовы быть автономными мыслителями, но они способны радикально ускорить рабочие процессы ученых и аналитиков. В сообществе практиков причинно-следственного вывода (например, среди пользователей open-source библиотек DoWhy и комьюнити PyWhy) одной из главных проблем является страх ошибиться на этапе ручного проектирования графа (DAG). Неверно заложенная в модель предпосылка гарантированно разрушит весь последующий статистический анализ.

Перевод абстрактных экспертных знаний в работающий программный артефакт всегда был узким горлышком. Как утверждает гость, современные LLM филигранно преодолевают этот разрыв. Программные системы ИИ могут эффективно использоваться в режиме интерактивного ассистента — «причинно-следственного копилота» (causal co-pilot). Человек берет на себя роль валидатора, отсекающего глупые ошибки и слепые зоны нейросети, в то время как модель мгновенно собирает контекст предметной области.

🔮 Разбор человеческих суждений и новые горизонты ИИ 49:56

В финальной части дискуссии собеседники затронули тему фактической причинности (actual или token causality), которая изучает не общие закономерности в популяции, а цепочки повлекших друг друга конкретных событий (например, почему разбился именно этот стакан). На бенчмарке Causal Judgments из тестового набора Big Bench точность GPT-4 составляет скромные 65%, причем при активации Chain of Thought этот показатель даже немного падает. Этот тест сложен тем, что в нем нет единственного математического правильного ответа — качество модели оценивается по степени совпадения с суждениями живых людей.

Опираясь на психологическую литературу, Роберт Осазува Несс перечислил ключевые факторы, из которых складывается человеческая оценка причинности:

Необходимость и достаточность: являлось ли событие обязательным (necessary) или достаточным (sufficient) условием для наступившего исхода.
Нарушение норм: выбивалось ли действие из рамок статистического ожидания или устоявшихся социальных и юридических норм.
Эмоциональный окрас: был ли финальный исход нейтральным или нежелательным (как в этической дилемме вагонетки).
Действие против бездействия (omission): разделение ответственности между прямой поломкой механизма и халатным отказом от его своевременного технического обслуживания.

Анализ показал, что LLM на удивление точно распознают эти скрытые паттерны человеческой психологии, демонстрируя точность в диапазоне от 70% до 80% при декомпозиции задач на отдельные этические и логические компоненты. По мнению гостя, это открывает захватывающие перспективы: вместо того чтобы обучать ИИ просто имитировать человеческую речь и извиняться перед пользователем, инженеры могут настраивать модели через RLHF (обучение с подкреплением на основе отзывов людей) следовать строгим «рецептам причинно-следственных рассуждений».

В завершение встречи Роберт Осазува Несс выделил две важные сторонние разработки, заслуживающие внимания сообщества:

Метод Interleaved Intervention Training: созданный аспирантом Стэнфордского университета Аттикусом Гейгером (Atticus Geiger), этот подход позволяет обучать базовые модели так, чтобы их внутренние латентные представления строго соответствовали эталонной причинно-следственной модели для конкретной задачи.
Библиотека Guidance: open-source инструмент от Скотта Лундберга (Scott Lundberg) и команды Microsoft Research, выступающий мощным конкурентом LangChain. Он позволяет жестко контролировать генерацию токенов LLM, гарантируя идеальную структуру JSON-ответов и устраняя баги форматирования.