Роберт Несс: «Без понимания причинности глубокое обучение зайдет в тупик»

В современном машинном обучении нарастает кризис классических «черных ящиков», не способных понимать истинные причинно-следственные связи. В рамках вебинара подкаста The TWIML AI Podcast основатель платформы Сэм Чаррингтон и исследователь Роберт Несс обсудили, почему каузальное моделирование (Causal Modeling) становится следующим фундаментальным сдвигом в индустрии искусственного интеллекта. По мнению экспертов, интеграция причинно-следственного анализа и генеративных нейросетей позволит преодолеть жесткие ограничения глубокого обучения и создать по-настоящему автономные, безопасные и объяснимые системы.

🧠 Закат эпохи «черных ящиков» и каузальный бум в AI 0:00

Сотрудничество между основателем TWIML Сэмом Чаррингтоном и профессором Северо-Восточного университета Робертом Нессом началось около полутора лет назад. Идея совместного курса по причинно-следственному моделированию родилась в конце 2019 года на конференции NeurIPS в Ванкувере — одном из последних крупных ИТ-мероприятий до начала пандемии. К маю 2021 года проект успешно выпустил уже четыре когорты студентов, продемонстрировав высокую вовлеченность инженеров по сравнению с классическим университетским обучением. Роберт Несс с иронией отмечает, что если студенты магистратуры во время пандемии часто отключали камеры, превращая экран в безликую матрицу имен, то профессионалы из сообщества TWIML активно создают учебные группы и еженедельно разбирают научную литературу.

Всплеск интереса ИИ-сообщества к причинности спикер описывает через популярный интернет-мем о неверном парне. В этой аналогии ИИ-сообщество заглядывается на проходящую мимо «причинность», пока его «девушка» — глубокое обучение — остается в недоумении. Роберт Несс утверждает, что этот интерес продиктован сугубо практическими вызовами, которые невозможно решить стандартными методами.

По мнению Несса, каузальные модели открывают три ключевых направления:

Вычисление психологии агентов: способность систем оценивать намерения, вину, сожаление и ответственность. В качестве примера Несс приводит цитату из книги Джуды Перла «Книга почему» о домашнем роботе-пылесосе, который разбудил спящего хозяина. Робот должен понять, что виноват сам факт шума в неподходящее время, а не интерпретировать жалобу как полный запрет на уборку на верхнем этаже.
Понимание «народной физики»: способность ИИ базово осознавать пространство, время и механизмы взаимодействия объектов (например, движение бильярдных шаров) без сложных симуляций. В подтверждение этой мысли Несс цитирует книгу Гэри Маркуса «Перезагрузка ИИ», где утверждается, что инженерам пора перестать строить системы, которые лишь лучше распознают статистические паттерны, и начать создавать ИИ, изначально понимающий пространство, время и причинность.
Повышение объяснимости и борьба с предвзятостью: каузальные графы позволяют математически строго и прозрачно описывать алгоритмические смещения, снижая градус спекуляций в таких чувствительных темах.

Роберт Несс подчеркивает, что даже лидеры глубокого обучения сейчас активно меняют свои приоритеты. В частности, лауреат премии Тьюринга Йошуа Бенджио публично признал, что современный ИИ зашел в тупик из-за неспособности решать каузальные задачи. Бенджио активно внедряет причинно-следственный анализ в новые архитектуры, опираясь на концепцию Даниэля Канемана о Системе 1 (интуитивное распознавание низкоуровневых сигналов нейросетями) и Системе 2 (медленное символьное мышление, необходимое для каузального вывода).

🪜 Лестница причинности: три уровня вопросов к данным 12:04

Для объяснения превосходства каузальных моделей над классическим глубоким обучением Роберт Несс использует концепцию «лестницы причинности» Джуды Перла, состоящую из трех уровней запросов:

Ассоциация (Association): пассивное наблюдение и поиск корреляций. Отвечает на вопрос: «Если мы видим признак $X$, что мы можем сказать о метке $Y$?» (например, предсказание индекса массы тела человека на основе его режима тренировок). Глубокое обучение превосходно справляется с этим уровнем при наличии больших объемов данных.
Вмешательство (Intervention): активное действие в реальном мире. Отвечает на вопрос: «Что произойдет с $Y$, если мы принудительно заставим $X$ принять определенное значение?» (например, если мы заставим случайную группу людей тренироваться, как изменится их вес?).
Контрфакты (Counterfactuals): анализ альтернативной реальности. Отвечает на вопрос: «Учитывая, что произошли события $X$ и $Y$, что случилось бы с $Y$, если бы $X$ было другим?» (например, размышление автора: «Я год просидел на карантине, не тренировался и набрал вес; что было бы с моим телом, если бы я все же занимался дома?»).

Классическое машинное обучение полностью ломается на втором уровне (интервенциях). Модели обучаются на совместном распределении данных из обучающей выборки. Однако, когда совершается принудительное вмешательство, исходное распределение разрушается. С точки зрения ML-инженерии это означает, что модель сталкивается с распределением, отличным от того, на котором она тренировалась (out-of-distribution). Для решения таких задач необходима явная каузальная модель, обладающая собственной «алгеброй распределений».

Третий уровень (контрфакты) требует еще более выразительной структуры. По словам Несса, алгоритму необходимо буквально «отмотать время назад» к моменту принятия решения, изменить его, а затем «прокрутить время вперед», удерживая все остальные фоновые факторы неизменными.

🖼️ Компьютерное зрение и логика внутри модели 15:59

Роберт Несс иллюстрирует работу лестницы причинности на примере генеративной задачи в компьютерном зрении. Представим каузальный граф, где пиксели изображения зависят от скрытых переменных: пола модели, ее этнической принадлежности, а также сценария (боксер на ринге в крови или боксер, позирующий для фото).

На уровне ассоциации генеративная модель будет выдавать преимущественно фотографии мужчин, поскольку в реальном мире и в обучающей выборке среди боксеров преобладают мужчины.

Если применить интервенцию и принудительно зафиксировать переменную пола в значении «женщина», модель разорвет естественные фоновые зависимости датасета и начнет генерировать исключительно женщин-боксеров. Это фундаментально отличается от простого вероятностного кондиционирования — это ручное переписывание логики системы, аналогичное изменению строки кода в функции.

На уровне контрфактов мы берем уже сгенерированное изображение конкретной белой женщины-боксера и просим модель показать, как выглядело бы это же самое изображение, если бы ее этническая принадлежность изменилась на азиатскую. При этом все индивидуальные черты лица, освещение и фон должны остаться прежними, меняются только параметры, находящиеся ниже по каузальному течению от измененной переменной.

Опытные специалисты по компьютерному зрению могут возразить, что подобные задачи (например, дипфейки) успешно решаются с помощью классического глубокого обучения. Однако Несс указывает на ключевое различие:

«В глубоком обучении эта логика закладывается на этапе подготовки тренировочных данных и кастомизации функций потерь. Мы же выносим эту логику из данных и процедур обучения непосредственно внутрь самой архитектуры модели».

Такой подход дает три мощных преимущества:

Резкое сокращение потребности в данных: модели больше не нужно собирать терабайты редких примеров для обучения edge-кейсам.
Фокус на экспертных знаниях: инженер тратит время на формализацию доменных знаний о системе, а не на бесконечный подбор гиперпараметров и разметку новых выборок.
Ad-hoc контрфактуальные запросы: после завершения обучения исследователь может отправлять любые спонтанные гипотетические запросы к любой переменной в системе, даже если это не планировалось изначально.

🏄‍♂️ Состояние потока: почему каузальное моделирование приносит удовольствие 21:23

В дискуссии с Шоном Тейлором Роберт Несс делился наблюдением, что разработка каузальных моделей погружает инженера в состояние психологического потока, делая работу похожей на увлекательное хобби. Сэм Чаррингтон напомнил об общепринятой индустриальной боли: около 80% времени дата-сайентисты тратят на рутинную очистку и предобработку данных (data munching). Несс соглашается и приводит в пример свой переход на функциональное программирование в обработке данных, который когда-то настолько его увлек, что он мог под сериал на Netflix ради удовольствия скачивать и визуализировать случайные датасеты.

Появление вероятностного программирования (Probabilistic Programming) вывело этот комфорт на новый уровень. Разработчик кодирует абстракции из реального мира, превращая код в объяснительную модель изучаемого явления.

Роберт Несс отмечает концептуальный разрыв между академическими дисциплинами:

Машинное обучение традиционно одержимо качеством предсказаний, полностью игнорируя объяснимость.
Социальные науки и экономика требуют абсолютной объяснимости, но строят примитивные линейные модели с p-value, которые абсолютно непригодны для точных прогнозов (например, для реальной торговли на бирже).

Байесовский каузальный подход, по мнению Несса, объединяет лучшее из обоих миров. Применение «Бритвы Оккама в байесовском исполнении» доказывает, что модели, которые точнее всего прогнозируют новые данные, одновременно предлагают самые простые и изящные объяснения. Каузальная семантика (например, концепт «марковского одеяла») естественным образом защищает систему от переобучения на уровне структуры, в отличие от искусственных костылей вроде dropout-слоев или случайных регуляризаторов. Инженер описывает реальные механизмы (например, эпидемиологию вируса), и модель улучшается за счет понимания сути вещей, а не за счет математических трюков. Роберт Несс метафорически критикует классический подход глубокого обучения цитатой Дэн Сяопина: «Переходить реку, нащупывая камни» — именно так выглядит слепой подбор гиперпараметров нейросетей вслепую.

🔄 Проклятие обратной связи и порочные петли данных 27:31

Большинство инженеров упускают из виду тот факт, что решения, принимаемые на основе предсказаний ML-модели, напрямую влияют на будущие данные, на которых эта же модель будет переобучаться. Единственное исключение, где классическое ML работает безопасно — это прогнозирование погоды. Если алгоритм утром посоветует человеку взять зонт, и тот послушается, само действие человека никак не повлияет на атмосферное давление и вероятность дождя.

Однако в бизнесе ситуация иная. Несс приводит пример с маркетинговым планированием. Алгоритм прогнозирует падение выручки в следующем квартале. Руководство компании, основываясь на этом прогнозе, принимает решение резко увеличить рекламный бюджет. Это вмешательство меняет реальность и показатели квартала. В итоге новые измененные данные поступают обратно в модель для ее повторного обучения.

«Это похоже на то, как если бы вы поднесли включенный микрофон близко к динамику. Возникает жуткий свист. Эта петля обратной связи генерирует колоссальные смещения и искажения в вашей системе принятия решений».

Ярким примером этой проблемы в индустрии является борьба с мошенничеством в платежных системах (например, в компании Stripe). Когда антифрод-модель начинает блокировать подозрительные транзакции, через фильтр прорываются только самые изощренные, атипичные схемы обмана. При следующем цикле переобучения алгоритм начинает затачиваться под эти уникальные кейсы, сужая свое понимание нормального поведения пользователей. В результате система начинает массово блокировать легитимные транзакции обычных клиентов, пропуская при этом более простые мошеннические атаки, под которые она перестал адаптироваться.

С аналогичными вызовами сталкивается сообщество обучения с подкреплением (Reinforcement Learning), которое сейчас массово переходит на каузальные рельсы, переписывая уравнение Беллмана с использованием do-операторов. Каузальный подход позволяет проводить офлайн-оценку политик (offline policy evaluation). Инженер может взять логи старых действий робота и на основе прошлых данных математически рассчитать: «Если бы мы внедрили другую стратегию поведения, насколько эффективнее робот справился бы с задачей?». Это избавляет от необходимости проводить тысячи опасных и дорогих экспериментов в реальном мире. Каузальный агент учится на «ощущении сожаления» о несделанном выборе, подобно человеку, а не через миллионы слепых итераций.

🎓 Практика и учебный план каузального марш-броска 36:10

Отвечая на вопросы о пороге входа, Роберт Несс успокоил потенциальных студентов: для освоения каузального моделирования не нужно быть доктором наук в области высшей математики. Достаточно базовых знаний теории вероятностей и статистики на уровне хорошего дата-сайентиста (уровень AP-statistics). Необходимо понимать, что такое случайная переменная, совместное и условное распределение, знать теорему Байеса и концепт условной независимости. В рамках курса упор делается на дискретные и категориальные исходы, хотя каузальная семантика отлично масштабируется и на непрерывные многомерные тензоры в компьютерном зрении.

Программа курса построена в гибком формате с фокусом на разные образовательные треки. Несс приводит в пример бывшего студента — продуктового менеджера из DeepMind, который руководил командой исследователей. Ему не нужно было писать код руками, но требовалось концептуальное понимание каузального языка для эффективного управления инженерами и ведения дискуссий по узким техническим топикам.

Учебный план рассчитан на последовательное погружение и включает в себя следующие модули:

Основы каузальных графов: изучение структуры графов, условной независимости и критерия d-разделения (d-separation).
Проверка каузальных допущений: изучение марковского свойства, верности (faithfulness), минимальности и достаточности. Спикер подчеркивает, что причинность фальсифицируема — допущения можно и нужно проверять на реальных данных.
Вероятностное программирование: практическая реализация каузальных генеративных моделей на языке Python с использованием библиотеки Pyro (разработанной на базе PyTorch).
Традиционный каузальный вывод (Causal Inference): оценка каузальных эффектов по обсервационным данным, мэтчинг по оценке склонности (propensity score matching) и обратное взвешивание вероятностей. Эти методы критически важно знать для успешного прохождения собеседований в ИТ-индустрии.
Сравнение фреймворков: сопоставление структурных каузальных моделей (SCM) Джуды Перла и фреймворка потенциальных исходов (Potential Outcomes) Дональда Рубина.
Продвинутые метрики: алгоритмизация контрфактов, анализ медиации (критично для создания справедливых алгоритмов без расовых или гендерных перекосов) и вычисление вероятностей необходимости и достаточности (для определения юридической ответственности и вины ИИ-агентов).

🛠️ Инструментарий и каузальные тренды в Кремниевой долине 47:52

В ходе сессии вопросов и ответов слушатели поинтересовались применимостью популярных готовых библиотек, таких как пакет CausalImpact от Google. Роберт Несс пояснил, что CausalImpact написан на языке R и базируется на байесовских структурных моделях временных рядов (BSTS). Этот инструмент использует локальные линейные тренды для прогнозирования того, как развивался бы рынок, если бы в определенный момент не произошло целевое вмешательство (например, запуск рекламной кампании).

Несс отмечает, что на курсе студентов учат не просто нажимать кнопки в готовых пакетах, а собирать подобные каузальные инструменты с нуля в Pyro. То же касается и библиотеки DoWhy от Microsoft (разработчик Амит Шарма), которая предоставляет удобный интерфейс для каузального вывода, предлагая пользователю меню алгоритмов на выбор. Роберт Несс предупреждает:

«Если вы используете инструменты каузального вывода, не понимая глубоко математических механизмов под капотом, вы очень легко попадете в неприятности и получите абсолютно ложные выводы».

В отличие от чисто теоретических курсов (например, популярного онлайн-курса Брейди Нила), программа Несса делает ставку на когортное обучение, прямые консультации с менторами и практический перенос каузальных графов в среду глубокого обучения на PyTorch.

Комментируя скепсис аудитории относительно медленного внедрения причинности в коммерческих компаниях из-за якобы низкой точности, Роберт Несс категорически не согласился с этим тезисом. Он напомнил, что крупнейшие технологические гиганты — Google, Amazon, Facebook и Netflix — уже много лет массово нанимают профессиональных экономистов с сильной базой в эконометрике (среди них такие светила, как главный экономист Google Хэл Вэриан и профессор Стэнфорда Сьюзан Эйти).

Причина этого тренда кроется в фундаментальной слепоте классического машинного обучения к асимметрии реального мира. Например, если пользователь покупает ноутбук на Amazon, рекомендательная система на базе косинусного сходства (cosine similarity) должна предложить ему сумку для ноутбука. Но если клиент покупает сумку для ноутбука, алгоритм ни в коем случае не должен рекомендовать ему дорогой ноутбук. Экономисты привнесли в Big Tech строгий язык каузальных эконометрических методов, оперирующий понятиями товаров-субститутов и комплементарных товаров.

Роберт Несс резюмирует, что сейчас каузальный анализ в Кремниевой долине сосредоточен преимущественно на стороне департаментов Data Science, а не классического Machine Learning Engineering, но в ближайшие годы этот барьер окончательно рухнет. В то время как академическая наука занята проблемой идентифицируемости (снижением смещения модели при бесконечном объеме данных), реальный бизнес ищет способы снижения дисперсии и повышения точности каузальных оценок на ограниченных выборках для максимизации прибыли.