Кристоф Мольнар о кризисе «черных ящиков» и будущем интерпретируемого машинного обучения

С развитием глубокого обучения и сложных нелинейных моделей в сфере искусственного интеллекта возник острый кризис «чёрных ящиков». В рамках подкаста Machine Learning Street Talk ведущие Тим Скарф, Конор Тан и Кит Даггар обсудили с известным исследователем Кристофом Мольнаром (Christoph Molnar) математические основы, скрытые ловушки и будущее интерпретируемого машинного обучения (IML). Главный вывод дискуссии заключается в том, что объяснение моделей не должно сводиться к набору изолированных хаков, а требует построения строгой инженерной и статистической методологии.

🔍 Кризис «черных ящиков» и эволюция методов объяснения 1:14

В течение сотен лет исследователи и аналитики полагались на простые, изначально интерпретируемые инструменты, такие как линейная регрессия или экспертные системы, основанные на жестких правилах. Однако за последние годы произошел колоссальный сдвиг в сторону использования массивных, глубоких нелинейных моделей, предсказания которых чрезвычайно сложно дешифровать обычными методами. По мере того как алгоритмы ИИ проникают в критически важные сферы принятия решений в реальном мире, фокус сообщества неизбежно смещается в сторону обеспечения их прозрачности и объяснимости.

Как отмечает Кристоф Мольнар, в начале его пути в Data Science машинное обучение часто описывали как нечто опасное и непостижимое, но сегодня исследователям доступна целая экосистема методов анализа. Существующие подходы можно разделить на несколько ключевых классов:

Внутренне интерпретируемые модели низких размерностей (например, простая линейная регрессия), где коэффициенты напрямую отражают логику работы системы.
Модельно-независимые (model-agnostic) методы, способные работать с абсолютно любым алгоритмом машинного обучения, включая обучение локальных или глобальных суррогатных моделей.
Теоретически обоснованные подходы на базе векторов Шепли (Shapley values), позволяющие математически корректно распределить «вклад» или «вину» за итоговое предсказание между входными признаками.
Специфичные для конкретных доменов методы, такие как карты важности (saliency maps) для визуальных нейросетей, подсвечивающие наиболее релевантные пиксели входного изображения.
Методы объяснения на основе примеров (example-based), которые ищут минимальные контрфактуальные изменения в данных, способные полностью переключить предсказание модели.

В 2018 году Кристоф Мольнар выпустил свой фундаментальный труд — книгу «Interpretable Machine Learning: A Guide for Making Black Box Models Explainable», ставшую главным ориентиром для отрасли. Тем не менее эксперт предупреждает, что методы интерпретируемости сами по себе несут дополнительный слой сложности и требуют экспертного понимания, иначе они могут привести к неверным выводам. По мнению Кита Даггара, индустрия сейчас часто занимается обычным «хакингом»: исследователи берут произвольную формулу с пятью параметрами, называют ее условным «активационным потенциалом Мегатрона» и публикуют в журналах, выдавая случайный подбор цифр за научный прорыв.

🧠 Психология объяснений: Что на самом деле хотят люди? 16:16

Важным аспектом интерпретируемости является то, как именно человеческий мозг воспринимает информацию. Кристоф Мольнар в своей книге детально разбирает, какие объяснения кажутся людям хорошими и убедительными, опираясь на социальные науки. В частности, он ссылается на известную научную работу исследователя Миллера (Miller), посвященную тому, чему сфера ИИ может научиться у социологии и психологии.

Анализ показывает, что человеческое восприятие подвержено когнитивным искажениям, из-за чего «хорошие» с точки зрения человека объяснения могут быть обманчивыми. Кристоф Мольнар выделяет ключевые свойства, которые люди подсознательно ищут в объяснениях:

Контрастивность (contrastive): человеку важно знать не просто почему модель приняла решение X, а почему она выбрала именно X, а не альтернативу Y.
Краткость и разреженность (sparsity): люди предпочитают лаконичные ответы, содержащие всего 2–3 ключевых факта, вместо исчерпывающего математического анализа.
Соответствие априорным знаниям: человек охотнее верит объяснению, которое подтверждает его устоявшиеся стереотипы или прошлый опыт.

По мнению Мольнара, в этом кроется парадокс: лаконичное объяснение, подстроенное под ожидания пользователя, может быть научно неверным и скрывать истинные триггеры модели. Возникает жесткий конфликт между разреженностью (sparsity) и полной атрибуцией вклада признаков, которую предоставляют, к примеру, векторы Шепли. Тим Скарф приводит пример с отказом в кредите: банк может заявить, что причина отказа — одна неоплаченная квитанция за мебель в 2018 году. Человеку это понятно, но в реальности истинная причина кроется в сотнях мелких ветвлений сложного дерева решений, которые банк просто скрыл ради лаконичности.

📉 Миф об изначальной понятности «белых ящиков» 24:25

В сообществе силен стереотип, что классические статистические модели («белые ящики») всегда безопасны и понятны. Однако Кристоф Мольнар опровергает этот тезис, указывая, что они остаются интерпретируемыми лишь до определенного порога размерности. Кит Даггар, опираясь на свой обширный опыт работы с множественной линейной регрессией, подтверждает, что при росте числа признаков коэффициенты модели теряют всякий физический смысл. Система начинает «играть в математические игры», искусственно завышая одни веса и занижая другие из-за сильной корреляции между ними.

Аналогичная проблема, по словам собеседников, касается и деревьев решений (decision trees). Тим Скарф отмечает, что дерево решений, обученное на реальных зашумленных данных, мгновенно превращается в нечитаемую структуру. Пользователю приходится мысленно удерживать цепочки из пяти и более проверок одного и того же неинтуитивного признака (например, рыночной капитализации на разных уровнях ветвления), чтобы понять один шаг алгоритма. Кит Даггар заключает, что теоретическая возможность расписать шаги модели на бумаге в реальной практике часто оказывается абсолютно бесполезной.

🖼️ Иллюзия карт важности (Saliency Maps) и ловушки экстраполяции 28:34

Тим Скарф критикует повальное увлечение картами важности (saliency maps) в современных ML-платформах, называя их «прославленными детекторами границ», создающими ложное чувство безопасности. Кристоф Мольнар, работающий над отдельной главой книги по этой теме, делится своим разочарованием из-за обилия и неэффективности таких методов, как интегрированные градиенты, DeconvNet или послойное распространение релевантности (LRP).

В качестве доказательства Мольнар ссылается на исследование «Sanity Checks for Saliency Maps», авторы которого обнаружили критический изъян: большинство карт важности выдают одинаковый результат независимо от весов модели и структуры данных. Они ведут себя как базовые фотофильтры для поиска краев объектов. Кристоф приводит в пример работу «Clever Hands», показавшую, что нейросети часто принимают решение на основе случайных артефактов (например, водяных знаков на фото), а не целевого объекта. Другое исследование продемонстрировало возможность манипулировать сетью так, что при неизменном предсказании карта важности менялась до неузнаваемости.

Дополнительно Тим описывает классический пример с классификацией животных:

При анализе изображений «собака против волка» модель может стабильно смотреть исключительно на наличие снега на заднем плане.
Если подсунуть этой же модели картинку кошки или дома, карта важности все равно подсветит центральный силуэт, никак не объясняя логику выбора конкретного класса.

Помимо визуальных моделей, серьезные проблемы обнаружены в графиках частичной зависимости (Partial Dependence Plots, PDP). По словам Мольнара, при наличии зависимости между признаками (feature dependence) методы IML начинают жестко экстраполировать данные за пределы реального распределения. В результате алгоритм создает вымышленные, несуществующие в природе точки данных. Мольнар иллюстрирует это абсурдным примером: в процессе случайных перестановок признаков модель может начать оценивать «младенца с годовым доходом в 100 000 долларов».

⚖️ Кейс модели COMPAS и дилемма выбора архитектуры 41:07

В ходе подкаста участники подняли фундаментальный вопрос: стоит ли вообще использовать сложные «черные ящики» там, где можно обойтись простыми правилами? Тим Скарф напомнил знаменитую историю вокруг проприетарной модели COMPAS, которая используется в США для прогнозирования вероятности рецидивов среди заключенных.

Журналисты-расследователи попытались воссоздать логику закрытого алгоритма с помощью линейного прокси-суррогата и публично обвинили систему в расизме. Однако последующие независимые исследования показали, что журналисты использовали некорректную суррогатную модель и сделали ложные допущения. Более того, ученые выяснили, что гигантскую модель COMPAS со 100+ признаками можно без потери качества заменить всего тремя базовыми инструкциями IF-ELSE, основанными на возрасте и количестве прошлых правонарушений.

Кристоф Мольнар формулирует следующий алгоритм выбора архитектуры при разработке систем:

Всегда начинать с простых интерпретируемых моделей (Lasso, обобщенные линейные или аддитивные модели, короткие деревья решений).
Обучить сложную модель машинного обучения и зафиксировать разрыв в метриках точности.
Если разрыв велик, попытаться сократить его за счет направленного проектирования признаков (feature engineering) в простой модели.
Если разрыв сохраняется, взвесить, стоит ли прирост в точности полной потери прозрачности, и лишь затем переходить к «черному ящику».

📊 Математическая строгость: Статистика против хакинга в IML 55:52

Кристоф Мольнар, имеющий академическое образование в области статистики, выражает глубокую озабоченность низким уровнем математической строгости в современной индустрии ИИ. По его мнению, авторы многих новых методов интерпретируемости занимаются обычным «хакингом», подбирая случайные параметры формул ради публикаций в журналах, вместо поиска фундаментальных решений.

Главная претензия Мольнара к текущим методам IML — полное отсутствие оценки неопределенности (uncertainty quantification) и доверительных интервалов. Поскольку любые объяснения рассчитываются на основе зашумленных данных, они сами по себе являются случайными величинами с высокой дисперсией. Мольнар подчёркивает, что если переобучить нейросеть с другим случайным сидом (random seed) или немного изменить разбиение на обучающую и тестовую выборки, популярные метрики важности признаков могут кардинально измениться.

Кроме того, Мольнар и Тим указывают на опасность «p-hacking» (манипуляции с данными ради достижения статистической значимости), которая давно отравляет естественные науки и теперь грозит сфере объяснимого ИИ. При анализе тысяч признаков без поправки на множественные сравнения исследователь неизбежно получит ложноположительные результаты, выдав случайный шум за ключевой фактор модели. Кит Даггар добавляет, что проецирование сложных распределений вероятностей на плоские цифры всегда ведет к критической потере информации.

⛓️ Поиск причинности (Causality) и концептуальная запутанность 1:02:03

Участники сошлись во мнении, что современное статистическое обучение отражает лишь поверхностные корреляции признаков, но не способно уловить истинную причинно-следственную структуру мира. Кристоф вспоминает, что за все время обучения в бакалавриате и магистратуре по статистике тему причинности поднимали ровно один раз — в рамках дежурной фразы «корреляция не означает причинность». По его мнению, разработчикам жизненно необходимо внедрять базовые правила работы с конфаундерами (смешивающими факторами), чтобы не допускать грубых ошибок в трактовке моделей.

Кит Даггар отмечает, что знание каузальных факторов (например, связи между уровнем тестостерона и аварийностью у водителей) приходит не из "сырых" датасетов, а из глубоких биологических и механистических исследований. Машинное обучение могло бы выступать триггером для гипотез, указывая на скрытые каузальные структуры, но мешает фундаментальная проблема запутанности концептов (concept entanglement).

В качестве примера Мольнар приводит феномен работы сверточных нейросетей:

Если на всех фотографиях в датасете собака всегда изображена вместе со спортивным диском (фрисби), модель физически не сможет разделить эти два понятия.
Для нейросети диск станет неотъемлемой частью концепта «собака», что полностью разрушает любую попытку извлечь из данных адекватную причинно-следственную связь реального мира.

🚀 Будущее IML: Математическая унификация и ML DevOps 1:09:03

Говоря о долгосрочных перспективах, Конор Тан вспомнил важную веху в истории IML — появление библиотеки SHAP (Shapley Additive exPlanations). По мнению Конора, авторы SHAP совершили прорыв, эквивалентный великому объединению в физике: они доказали, что такие разрозненные методы, как LIME, DeepLIFT и Layer-wise Relevance Propagation, являются лишь частными случаями единого математического каркаса аддитивного распределения признаков. Кристоф соглашается с превосходством векторов Шепли из-за их строгих теоретических свойств, критикуя при этом LIME за хаотичную дефолтную параметризацию (например, жестко прописанную в коде ширину ядра 0.75).

По мнению Тима Скарфа, будущее интерпретируемости лежит в плоскости автоматизации и ML DevOps, где анализ моделей будет бесшовно встроен в CI/CD-пайплайны. Уже сегодня благодаря оптимизации вычислений (например, библиотекам от Nvidia RAPIDS на графических процессорах GPU) расчет векторов Шепли происходит кратно быстрее. Мольнар видит идеальный процесс разработки как генерацию автоматического базового отчета по клику мыши («отчет Мольнара»), который должен служить отправной точкой для глубокого и критического аудита со стороны инженеров.

📋 Операционные модели, этика и аудит ИИ 1:36:31

В финальном послесловии Тим Скарф затронул критически важную тему операционного управления моделями в крупных корпорациях. По его наблюдениям, современные облачные провайдеры (Azure ML, SageMaker, Dataiku) превратили методы интерпретируемости в бессмысленное «формальное проставление галочек» (box-ticking exercise). Компании покупают софт, запускают карты важности, но абсолютно не понимают, что делать с полученными аномалиями.

Тим считает, что технологический инструментарий бесполезен без выстроенного человеческого процесса:

Необходимо создавать и пополнять централизованные базы проблемных и запрещенных корреляций, специфичных для каждого бизнеса.
Внедрять жесткие регламенты аудита, где решение о валидности модели принимается независимой группой стейкхолдеров.
В обязательном порядке логировать все экспертные оценки по схеме «кто, что и когда утвердил».

Тим резюмирует, что в случае масштабного сбоя алгоритма, который нанесет финансовый или социальный ущерб, у компании должна быть возможность «отмотать время назад» и увидеть, на основании каких аргументов конкретный специалист одобрил деплой. Только такой жесткий и прозрачный подход позволит обществу безопасно масштабировать технологии ИИ в будущем.