Роберт Несс о каузальном ИИ и будущем языковых моделей

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон и старший исследователь Microsoft Research Роберт Осазува Несс обсудили ключевые тренды на стыке причинно-следственного анализа и машинного обучения. Главной темой беседы стало преодоление ограничений классического ИИ за счет внедрения каузальной логики, глубокого обучения и использования физических симуляторов. Собеседники подробно разобрали актуальные научные работы, заложившие фундамент для прорыва в области каузального ИИ и больших языковых моделей.

🧠 Каузальный поиск: от абстрактной математики к прикладным задачам ML 6:11

Каузальный поиск (causal discovery) представляет собой процесс выявления причинно-следственных связей напрямую из имеющихся массивов данных. Главная цель исследователей в этой области заключается в построении направленного ациклического графа (DAG), отражающего структуру исследуемой системы. Как отмечает Роберт Осазува Несс, до 2022 года в научном сообществе доминировал подход, сводящий эту задачу к непрерывной оптимизации. Однако гость признается, что долгое время относился к таким методам скептически, поскольку они были оторваны от реальных прикладных задач. Традиционные алгоритмы стремились построить огромные, запутанные графы, напоминающие «клубки шерсти», тогда как для практического применения дата-сайентистам обычно требуется точечное понимание конкретных узлов системы.

По словам спикера, фундаментальным прорывом стало соединение каузального поиска с конкретными прикладными задачами машинного обучения. В качестве яркого примера Роберт Осазува Несс приводит исследование «On the generalization and adaptation performance of causal models». В этой работе ученые использовали концепцию независимости каузальных механизмов. Ее суть заключается в том, что если граф построен верно, то при изменении распределения причины условное распределение следствия остается стабильным, а векторы их параметров в пространстве оптимизации оказываются ортогональными. Исследователи обнаружили, что чем ближе граф к истинному, тем быстрее модель адаптируется к новым, не входившим в обучающую выборку (out-of-distribution) данным. Скорость этой адаптации была успешно интегрирована в контур оптимизации в качестве управляющего сигнала.

Значительный вклад в развитие этого тренда внесла группа ученых из DeepMind и Mila, включая Розмари Ке, Йошуа Бенжио, Стефана Бауэра, Бернхарда Шёлкопфа и Сильвию Сьяппу. В их совместной работе «Learning neural causal models from unknown interventions» исследуется поведение генеративных каузальных моделей в условиях неизвестных интервенций. Базовая интуиция авторов проста: при внешнем вмешательстве в конкретный узел графа меняться должны только те элементы, которые находятся ниже по течению связей. Модель обучается предсказывать цели скрытых интервенций, опираясь на равновесные данные (equilibrium data).

Роберт Осазува Несс иллюстрирует этот механизм наглядным примером из игровой индустрии. Представьте аналитика игровой компании, изучающего связь между вовлеченностью в побочные квесты (Side Quests), внутриигровыми покупками (In-game purchases) и членством игрока в гильдии (Guild). Членство в гильдии выступает общей причиной (confounder): такие игроки больше кооперируются, меньше отвлекаются на одиночные квесты, но охотнее тратят ресурсы. Модифицируя игровую динамику (проведя идеальную интервенцию), аналитик может принудительно вовлекать пользователей в квесты, изолируя этот фактор. В биологических же системах интервенции часто носят скрытый характер: например, при окислительном стрессе клетки ученый видит изменения белков, но не знает исходной точки воздействия. Новый алгоритм позволяет выявлять структуру графа даже в таких неопределенных условиях.

Еще одной важной вехой стала работа «Learning to induce causal structure». Авторы превратили каузальный поиск в задачу обучения с учителем (supervised learning), где фичами выступают наборы данных, а метками (labels) — соответствующие им графы. Традиционно каузальный поиск страдает от проблемы классов эквивалентности Маркова: несколько графов с одинаковым скелетом, но разными направлениями стрелок, статистически неотличимы друг от друга на основе одних лишь обсервационных данных. Внедрение архитектуры Transformer позволило кодировать совместное распределение ребер графа, эффективно сохраняя глобальную информацию об ацикличности и успешно работая с неопределенностью.

🎮 Симуляторы как источник каузального индуктивного смещения 34:03

Вторым ключевым трендом гость подкаста назвал интеграцию каузальных алгоритмов с программными симуляторами. По мнению Роберта Осазувы Несса, ученые-физики называют эти инструменты процессными моделями, инженеры — симуляторами, однако суть едина: в них изначально заложены экспертные знания о каузальных механизмах реального мира.

В работе «Amortized inference for causal structure learning», созданной Ларсом Лодером совместно с Бернхардом Шёлкопфом, вариационный вывод был объединен с симуляцией данных. Симулятор, обладающий знанием об истинном графе, генерирует массивы данных, на которых обучается энкодер, способный затем восстанавливать структуру в реальных downstream-задачах.

Еще более масштабным примером использования каузального индуктивного смещения стало создание мультимодальной базовой модели для прогнозирования погоды и климата Climax. Эта модель обучалась не только на исторических наблюдениях, но и на гигантских массивах симулированных данных. Такие симуляторы детально описывают локальные физические взаимодействия компонентов климатической системы на микроуровне, подчиняющиеся строгим законам физики.

Роберт Осазува Несс проводит аналогию с симуляциями в программной среде NetLogo, моделирующими распространение эпидемий в популяции. Нам крайне сложно сразу нарисовать верхнеуровневый каузальный граф пандемии. Однако мы можем легко запрограммировать поведение отдельных агентов: человек выходит из дома, сталкивается с другим агентом, и с определенной вероятностью передает инфекцию, причем некоторые агенты изначально заданы как суперраспространители. Симулируя миллионы таких микро-взаимодействий, мы получаем синтетический массив данных, отражающий истинное многообразие каузального пространства (manifold). На этих данных можно эффективно обучать суррогатные каузальные модели машинного обучения, экономя колоссальные вычислительные ресурсы.

Для обеспечения интерпретируемости нейросетей исследователи начали применять метод интервенций обмена (interchange interventions). Суть подхода, описанного в статье «Inducing causal structure for interpretable neural networks», заключается во вмешательстве во внутренние состояния обучаемой модели. Например, в языковой модели, определяющей тональность текста, можно искусственно заменить эмбеддинг одного слова на эмбеддинг другого и зафиксировать изменение результата. Синхронизация внутренних представлений нейросети с эксплицитной каузальной моделью позволяет гарантировать, что сеть действительно усваивает причинно-следственную структуру, а не просто запоминает поверхностные корреляции.

📊 Латентные переменные и каузальные представления 50:50

Обучение каузальным представлениям (causal representation learning) решает задачу извлечения скрытых (латентных) причинно-следственных факторов из низкоуровневых высокоразмерных данных. Данное направление уходит корнями в анализ независимых компонентов (ICA) и исследования в области распутывания представлений (disentanglement). По словам Роберта Осазувы Несса, до недавнего времени этот подход оставался во многом декларативным, однако исследователи перешли к жесткой формализации требований к каузальным представлениям.

В фундаментальном труде Истина Вана и Майкла Джордана «Desiderata for representation learning: A causal perspective» авторы обратились к классической юридической теории вероятностей причинности. Они формализовали два ключевых понятия:

Вероятность необходимости (Probability of Necessity): юридический принцип «если бы не» (but-for), определяющий, произошло бы событие B, если бы причина A не имела места.
Вероятность достаточности (Probability of Sufficiency): показатель того, насколько появления причины A самой по себе достаточно для того, чтобы инициировать следствие B.

Исследователи математически доказали, что качественное каузальное представление обязано обладать одновременно высокими показателями как необходимости, так и достаточности, что переводит дискуссию об архитектуре моделей из области интуитивных догадок в плоскость строгих доказательств.

Параллельно развиваются методы работы с традиционными табличными данными, содержащими скрытые переменные. Одним из главных препятствий классического каузального поиска всегда было допущение каузальной достаточности — предположение, что у наблюдаемых признаков нет скрытых общих причин, что в реальном дата-сайенсе практически никогда не выполняется. Группа Кунь Чжана из Университета Карнеги — Меллона (CMU) представила работу «Identification of linear non-gaussian latent hierarchical structure». Опираясь на допущение о линейных негауссовских распределениях, ученые продемонстрировали, как исключительно из обсервационных табличных данных можно успешно выявлять латентные причины и восстанавливать иерархическую структуру связей между ними.

Роберт Осазува Несс подчеркивает важность упрощения экспериментальных сред для верификации теории. В индустрии глубокого обучения популярен подход «грубой силы»: завалить сложную задачу терабайтами данных и гигантскими вычислительными мощностями, а затем через абляционные исследования искать причины успеха. В каузальном анализе это не работает, поскольку при сбое алгоритма невозможно понять, вызван ли он нехваткой мощностей или фундаментальной неидентифицируемостью (математической неразрешимостью) задачи. По этой причине сложнейшая робототехническая 3D-среда CausalWorld уступила место упрощенному 2D-симулятору физики блоков в рамках проекта Causal MBRL. В этой среде тяжелые блоки могут толкать легкие, создавая изолированную каузальную задачу, решив которую на теоретическом уровне, можно переходить к масштабированию.

⚖️ Актуальная каузальность и психология человеческих суждений 1:04:31

В классической статистике каузальность обычно рассматривается на уровне общих понятий (например, «курение вызывает рак легких») — это так называемая каузальность токенов. Однако существует пласт задач, связанных с «актуальной причинностью» (actual causality), которая ищет ответ на вопрос о конкретном единичном инциденте: почему умер данный конкретный человек, из-за курения или из-за смога в городе?

Роберт Осазува Несс отмечает, что математический аппарат каузальных графов долгое время пасовал перед контекстуальными суждениями, которые человек выносит мгновенно. Наглядный пример: если в лесу в разгар сухого сезона человек бросил сигарету и начался пожар, каузальный граф зафиксирует два обязательных условия — брошенную сигарету и наличие кислорода в атмосфере. Математически оба узла равноправны, но человеческая логика и право никогда не обвинят кислород, так как он является фоновой нормой. Пытаясь учесть такие нюансы, математические определения актуальной причинности обросли громоздкими эвристиками для сотен пограничных кейсов.

Параллельно специалисты по вычислительным когнитивным наукам исследовали, как именно человеческий мозг принимает каузальные суждения и распределяет ответственность и вину. В работах «A counterfactual simulation model of causal judgments for physical events» и «What would have happened: Counterfactuals, hypotheticals and causal judgments» ученые доказали, что люди непрерывно запускают в голове мысленную симуляцию контрфактуальных сценариев. На примере бильярдных шаров: видя, как шар А сталкивается с шаром Б и тот отлетает в лузу, человек мгновенно мысленно убирает шар Б со стола и просчитывает траекторию шара А. Если бы траектория не привела к лузе, человек выносит суждение, что столкновение было необходимой причиной.

Этот же механизм лежит в основе юриспруденции при определении вины подсудимого. Однако человеческий мозг накладывает на этот процесс жесткие ограничения, описанные в статье «Counterfactuals and the logic of causal selection». По мнению Несса, люди используют своего рода «контрфактуальную бритву Оккама»: мы симулируем только высоковероятные, нормальные альтернативные миры. Огромное значение имеет контекст нормальности фоновых факторов. Если покупатель случайно пролил оливковое масло в супермаркете и кто-то поскользнулся, степень его вины оценивается иначе, чем если бы те же самые события произошли после того, как этот человек проник в магазин посреди ночи со взломом.

🛠️ Инструменты, бенчмарки и коммерческие перспективы LLM 1:16:39

Практическая реализация каузального ИИ активно развивается в рамках open-source экосистемы. Роберт Осазува Несс рекомендует разработчикам обратить внимание на следующие ключевые инструменты:

PyWhy: масштабная открытая библиотека, поддерживаемая Microsoft Research и Amazon, в которую недавно был интегрирован пакет causal-learn от группы Кунь Чжана.
y0 (Why-not): специализированная Python-библиотека, реализующая сложные алгоритмы идентификации и do-исчисления Джуды Перла (такие как ID, ID и конвекционный ID), которые ранее были доступны только в единичных R-пакетах.
Causal MBRL: упрощенный открытый репозиторий для каузального обучения с подкреплением в физических средах.

Важным шагом для оценки каузальных способностей ИИ стал масштабный проект BIG-bench и его публикация «Beyond the imitation game: Quantifying and extrapolating the capabilities of large language models», объединившая множество бенчмарков для стресс-тестирования причинно-следственной логики нейросетей.

Говоря о коммерческом применении, Роберт Осазува Несс подчеркивает, что большие языковые модели демонстрируют удивительные успехи в извлечении каузальных связей. Если попросить Bing Chat построить граф зависимостей между курением и раком легких, модель выдаст крайне правдоподобный DAG. Гость подкаста считает, что LLM успешно усваивают «общеизвестные каузальные знания» (common sense causal knowledge) из огромных текстовых корпусов. Модели прекрасно понимают транзитивность связей (если стоимость сигарет влияет на объемы курение, а курение вызывает рак, то стоимость сигарет косвенно влияет на рак). Более того, они улавливают монотонность зависимостей: LLM знают, что курение всегда строго повышает риски заболеваний, в то время как избыток маркетинговых писем может как привлечь пользователя, так и спровоцировать его отток.

Тем не менее, вопрос о том, способны ли языковые модели на истинный каузальный вывод, Роберт считает некорректно поставленным, поскольку его невозможно надежно валидировать. Будущее лежит в синергии подходов. Одним из ярких трендов является метод Program of Thoughts prompting. Вместо того чтобы заставлять модель рассуждать на естественном языке, ее просят написать программу на символическом языке программирования, описывающую шаги do-исчисления, и затем исполнить этот код во внешнем интерпретаторе, получая строгие математические гарантии.

В рамках дата-сайенса LLM уже сейчас радикально снижают порог входа, автоматически генерируя каузальные графы и переводя их в рабочий код для библиотек NetworkX или DoWhy. Как показал эксперимент коллеги гостя, Ахмеда Шармы, если запустить LLM на классическом датасете Тюбингенских пар причин и следствий, модель демонстрирует высочайшую точность в определении направлений связей, оперируя исключительно текстом и полностью игнорируя сырые данные.

Обратным вектором интеграции является использование каузальных моделей для улучшения самих LLM и борьбы с галлюцинациями. Каузальная модель может выступать внешним омбудсменом, верифицирующим факты, или напрямую вмешиваться в процесс декодирования токенов по аналогии с эвристиками поискового алгоритма A. Наконец, в контуре обучения с подкреплением на основе обратной связи от человека (RLHF) вместо простого ранжирования текстовых ответов эксперты смогут напрямую редактировать сгенерированные моделью каузальные графы, передавая ИИ несопоставимо более богатый и плотный сигнал для обучения. Вектор этого движения наглядно иллюстрирует проект SayCan от Google, где LLM формирует высокоуровневый план действий для робота, а каузальная модель модифицирует его с учетом физических ограничений и доступных интервенций в реальной среде. В заключение встречи Роберт Осазува Несс анонсировал скорый выход своей книги «Causal Machine Learning»*, написанной на базе PyTorch, которая призвана научить инженеров совмещать вариационный вывод и нейросети для решения сложнейших причинно-следственных задач.