Роберт Несс: «LLM зазубривают бенчмарки, а не мыслят причинно-следственно»

The TWIML AI Podcast 1,3 тыс. 1 ч 1 мин 9 мин 17.07.2023
Главное

Большие языковые модели стремительно трансформируют индустрию искусственного интеллекта, однако вопрос об их способности к истинному причинно-следственному мышлению остается открытым. В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон обсудил эту проблему со старшим исследователем Microsoft Research Робертом Осазувой Нессом. В центре дискуссии оказалась недавняя научная работа эксперта, авторы которой попытались выяснить, где заканчивается банальное зазубривание текстов нейросетью и начинается подлинный логический вывод.

📊 Причинно-следственный анализ как фундамент ИИ нового поколения 0:12

Причинно-следственный анализ играет ключевую роль в самых разных научных дисциплинах — от эконометрики и эпидемиологии до статистики и естественных наук. Главная трудность здесь заключается в необходимости делать достоверные выводы на основе пассивных наблюдательных или экспериментальных данных, помня классический афоризм о том, что корреляция не означает причинность.

В последнее время этот инструмент стал объектом пристального внимания в сфере машинного обучения. Как объясняет Роберт Осазува Несс, исследователи стремятся использовать способность алгоритмов масштабироваться на огромные наборы данных. По мнению гостя, если конечной целью нашей индустрии является создание сильного искусственного интеллекта (AGI), то способность к причинно-следственному рассуждению (causal reasoning) должна стать его неотъемлемой частью. Главная задача ученых сегодня — научить интеллектуальных агентов делать корректные выводы, сопоставимые с человеческим базовым уровнем или соответствующими строгими стандартами логики.

🚀 Эксперименты с LLM: триумф на существующих бенчмарках 5:24

В своей новой работе Роберт Осазува Несс совместно с коллегами Амитом Шармой и Омри Кисманом из Microsoft Research, а также Чунхао Танем из Чикагского университета, протестировал возможности современных больших языковых моделей на стандартных причинно-следственных задачах. Одним из базовых тестов стало попарное выявление причинности (pairwise causal discovery). Модели давали два параметра (например, температура и высота над уровнем моря) и предлагали определить, что из них является причиной, а что — следствием. Ученые намеренно отбросили численные массивы данных, передав моделям исключительно названия переменных.

Результаты тестирования моделей от OpenAI оказались впечатляющими:

При этом Роберт Осазува Несс подчеркивает важную закономерность: качественные результаты начали проявляться только по достижении моделями определенного размера. Прорыв наметился в линейке моделей после GPT-3, включая text-Davinci-03, GPT-3.5 Turbo и GPT-4. Как отмечает исследователь, до этого этапа нейросети (например, GPT-2) справлялись с тестами хуже, чем при случайном угадывании ответов. Подобный скачок напоминает гостю выводы известного исследования Microsoft «Sparks of AGI», где переход к GPT-4 обнажил совершенно новые, ранее отсутствовавшие эмерджентные способности.

🧠 Загадка эмерджентности и феномен зазубривания данных 14:13

Резкое появление у ИИ способности к логическим рассуждениям по мере масштабирования вызывает у Роберта Осазувы Несса смешанные чувства. С одной стороны, он согласен с концепцией эмерджентного поведения, при котором механизмы внимания и огромные объемы данных позволяют алгоритмам подниматься выше по иерархии абстракций. С другой стороны, эксперт признается, что эта ситуация заставляет его чувствовать себя неловко, поскольку механизмы работы этой способности остаются абсолютно неизученными.

По мнению гостя, традиционное сообщество исследователей причинно-следственных связей крайне консервативно в своих выводах, ведь на кону могут стоять человеческие жизни — например, при оценке эффективности медицинских вакцин. В таких условиях высокая точность на бенчмарках сама по себе не может служить надежным критерием качества. Исследователи обнаружили серьезную проблему: тестируемые бенчмарки были попросту заучены моделями в процессе обучения.

Чтобы проверить гипотезу о зазубривании, команда Несса провела тест на текстовое автодополнение (text completion test). Они загрузили в модель текстовое описание бенчмарка Тюбингена и ввели первые две ячейки из табличной строки данных. Нейросеть смогла предсказать содержимое следующей ячейки с точностью 60%. Это прямо доказывает, что массив данных Тюбингена находился в обучающей выборке OpenAI, смазывая чистоту эксперимента. По словам исследователя, бенчмарки хорошо оценивают способность модели формулировать ответ на основе уже имеющихся знаний, но они не позволяют понять, способна ли LLM автономно выводить новые причинно-следственные факты о мире.

🔍 Хрупкость логики LLM: от озонового слоя до «морского ушка» 23:05

При детальном анализе ошибок ИИ обнаружилась поразительная хрупкость его рассуждений. В тесте на выявление связи между радиацией и озоном модель пришла к неверному выводу, что озон является причиной радиации. Проанализировав «цепочку мыслей» (Chain of Thought) нейросети, ученые увидели, что она рассуждала о стратосфере: там истощение озонового слоя действительно приводит к росту солнечной радиации. Однако контекст задачи подразумевал земную поверхность, где искусственные источники радиации генерируют озон в воздухе. Роберт Осазува Несс отмечает, что модели критически не хватает умения задавать уточняющие вопросы в двусмысленных ситуациях.

Еще один яркий пример связан с биологическим датасетом о моллюсках абалонах (морское ушко). Модель безошибочно определила, что возраст моллюска является причиной увеличения его длины. Однако когда исследователи заменили слово «длина» (length) на синонимичное в данном контексте слово «диаметр» (diameter), LLM внезапно выдала ошибочный ответ. Как считает гость, эта аномалия наглядно подтверждает: действия алгоритма больше похожи на воспроизведение поверхностной памяти, чем на истинное понимание сути вещей.

Собеседники также выделили две ключевые уязвимости ИИ при решении бизнес-задач:

🛡️ Индуктивные смещения и Бритва Оккама в промт-инжиниринге 34:10

Чтобы заставить языковые модели абстрагироваться от зазубренных шаблонов и начать рассуждать глубже, авторы исследования обратились к механизму индуктивных смещений (inductive biases). В классическом машинном обучении эти смещения жестко закладываются в архитектуру (например, сверточные слои обеспечивают инвариантность к сдвигу). В причинно-следственном выводе смещения задаются в виде строгих математических допущений или направленных ациклических графов (DAG).

Преимущество LLM, по мнению Несса, состоит в возможности транслировать эти индуктивные смещения с помощью обычного человеческого языка. Ученые провели эксперимент, внедрив в систему промтов философский принцип Бритвы Оккама:

  1. Сначала модель попросили составить лучший аргумент в пользу того, что переменная A вызывает переменную B.
  2. Затем — зеркальный аргумент в пользу того, что B вызывает A.
  3. В финальном промте ИИ должен был сопоставить оба аргумента и выбрать наиболее лаконичный, отсекающий лишние внешние факторы.

При тестировании на примере с моллюсками абалонами этот подход вскрыл интересную деталь. Пытаясь доказать ложную гипотезу (что длина тела увеличивает возраст), модель соорудила сложную, но логичную теорию о том, что длинные особи более конкурентоспособны в условиях ограниченных ресурсов, вытесняют сородичей и поэтому дольше живут. Применение Бритвы Оккама заставило систему отдать предпочтение простому и верному тезису: организмы растут по мере старения. Хотя точность GPT-4 при таком подходе снизилась до 85%, Роберт Осазува Несс считает этот результат куда более ценным, так как он базируется на логическом фильтре, а не на слепом копировании памяти.

🕸️ Построение сложных причинно-следственных графов без данных 37:26

Одним из самым многообещающих открытий исследования стала способность LLM конструировать масштабные причинно-следственных графы. В стандартной практике для этого требуются сложные статистические алгоритмы Causal Discovery, анализирующие массивы сухих цифр. Команда Несса провела эксперимент с нетривиальной структурой из 13–14 переменных, используя медицинский датасет по нейропатической боли со специфическими терминами (например, «правосторонняя радикулопатия L1» и «фарингеальный дискомфорт»).

Методология эксперимента выглядела следующим образом:

Итоговые метрики графа (такие как F1-мера и структурное расстояние Хэмминга) оказались сопоставимы со специализированными алгоритмами глубокого обучения. Однако Роберт Осазува Несс делает важную оговорку: данный метод работает исключительно тогда, когда названия переменных семантически информативны для эксперта. Если зашифровать их абстрактными символами A, B, C и D, магия контекстного понимания LLM полностью исчезает.

🤝 Эра «причинно-следственного копилота» для практиков 41:38

На основе полученных данных Роберт Осазува Несс формулирует главный вывод своего исследования: большие языковые модели сегодня не готовы быть автономными мыслителями, но они способны радикально ускорить рабочие процессы ученых и аналитиков. В сообществе практиков причинно-следственного вывода (например, среди пользователей open-source библиотек DoWhy и комьюнити PyWhy) одной из главных проблем является страх ошибиться на этапе ручного проектирования графа (DAG). Неверно заложенная в модель предпосылка гарантированно разрушит весь последующий статистический анализ.

Перевод абстрактных экспертных знаний в работающий программный артефакт всегда был узким горлышком. Как утверждает гость, современные LLM филигранно преодолевают этот разрыв. Программные системы ИИ могут эффективно использоваться в режиме интерактивного ассистента — «причинно-следственного копилота» (causal co-pilot). Человек берет на себя роль валидатора, отсекающего глупые ошибки и слепые зоны нейросети, в то время как модель мгновенно собирает контекст предметной области.

🔮 Разбор человеческих суждений и новые горизонты ИИ 49:56

В финальной части дискуссии собеседники затронули тему фактической причинности (actual или token causality), которая изучает не общие закономерности в популяции, а цепочки повлекших друг друга конкретных событий (например, почему разбился именно этот стакан). На бенчмарке Causal Judgments из тестового набора Big Bench точность GPT-4 составляет скромные 65%, причем при активации Chain of Thought этот показатель даже немного падает. Этот тест сложен тем, что в нем нет единственного математического правильного ответа — качество модели оценивается по степени совпадения с суждениями живых людей.

Опираясь на психологическую литературу, Роберт Осазува Несс перечислил ключевые факторы, из которых складывается человеческая оценка причинности:

Анализ показал, что LLM на удивление точно распознают эти скрытые паттерны человеческой психологии, демонстрируя точность в диапазоне от 70% до 80% при декомпозиции задач на отдельные этические и логические компоненты. По мнению гостя, это открывает захватывающие перспективы: вместо того чтобы обучать ИИ просто имитировать человеческую речь и извиняться перед пользователем, инженеры могут настраивать модели через RLHF (обучение с подкреплением на основе отзывов людей) следовать строгим «рецептам причинно-следственных рассуждений».

В завершение встречи Роберт Осазува Несс выделил две важные сторонние разработки, заслуживающие внимания сообщества:

  1. Метод Interleaved Intervention Training: созданный аспирантом Стэнфордского университета Аттикусом Гейгером (Atticus Geiger), этот подход позволяет обучать базовые модели так, чтобы их внутренние латентные представления строго соответствовали эталонной причинно-следственной модели для конкретной задачи.
  2. Библиотека Guidance: open-source инструмент от Скотта Лундберга (Scott Lundberg) и команды Microsoft Research, выступающий мощным конкурентом LangChain. Он позволяет жестко контролировать генерацию токенов LLM, гарантируя идеальную структуру JSON-ответов и устраняя баги форматирования.
💬 Цитаты

«Способность к причинно-следственному рассуждению должна стать частью сильного искусственного интеллекта.»

Роберт Осазува Несс 04:42

«Большие языковые модели сегодня не готовы быть автономными мыслителями, но они способны радикально ускорить рабочие процессы ученых.»

Роберт Осазува Несс 10:10

«Действия алгоритма больше похожи на воспроизведение поверхностной памяти, чем на истинное понимание сути вещей.»

Роберт Осазува Несс 33:30
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Causal Discovery
Процесс построения причинно-следственного графа на основе статистического анализа данных.
DAG (Направленный ациклический граф)
Математическая структура, используемая для визуализации и моделирования однонаправленных причинно-следственных связей.
Chain of Thought (Цепочка мыслей)
Техника промт-инжиниринга, заставляющая модель расписывать логические шаги перед выдачей финального ответа.
RLHF
Метод обучения модели с подкреплением на основе явных оценок и предпочтений человека.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Robert Osazuwa Ness Microsoft Research GPT-4 causal reasoning Causal Discovery