Объяснимость критических систем: как Стэнфордские ученые заглядывают внутрь ИИ

В лекции Стэнфордского университета, посвященной валидации критически важных для безопасности систем, подробно рассматривается концепция объяснимости (explainability) искусственного интеллекта. Исследователи анализируют, почему простого подтверждения работоспособности алгоритма недостаточно для его безопасного развертывания в реальном мире, и предлагают практический инструментарий для деконструкции решений «черного ящика». На примере систем авиационной безопасности и робототехники демонстрируются методы, позволяющие инженерам понять истинные мотивы скрытых вычислений нейросетей.

🛩️ От симуляции столкновений к поиску объяснений 0:05

При проектировании систем авиационной безопасности, таких как ACAS X (система предупреждения столкновений в воздухе), инженеры сталкиваются с колоссальными массивами данных. Модель воздушного пространства для ACAS X обучалась на основе радиолокационных данных за девять месяцев по всей континентальной части США. В рамках стэнфордского курса AA228 эта модель представляется в виде Байесовской сети. С ее помощью можно моделировать сценарии опасных сближений самолетов (NMAC), генерируя случайные траектории.

Однако прямое моделирование столкновений крайне неэффективно, поскольку реальное воздушное пространство уже является безопасным, и критические ситуации происходят редко. Чтобы получить точные оценки, применяется выборка по значимости (importance sampling), которая искусственно смещает распределение в сторону меньших расстояний между самолетами по вертикали и горизонтали, а затем перевзвешивает результаты. Этот подход помог успешно оценить вероятность аварий для ACAS X.

До сих пор валидация систем в рамках курса сводилась к бинарным исходам: работает алгоритм или нет, нашли ли инженеры сбои или смогли доказать их отсутствие. Но для безопасного развертывания критически важно понимать, почему система принимает то или иное решение. Алгоритм может показывать отличные результаты по стандартным метрикам, но полностью провалиться на неучтенных показателях. Полноценное объяснение логики ИИ позволяет инженерам действовать уверенно при переносе систем в реальный мир.

Основные направления объяснимости, рассматриваемые в лекции, включают:

Визуализацию стратегий ИИ (Policy visualization)
Оценку важности признаков (Feature importance)
Использование суррогатных моделей (Surrogate models)
Контрфактуальный анализ (Counterfactuals)
Характеризацию режимов сбоя (Failure mode characterization)

📊 Визуализация стратегий: как увидеть решения ИИ 3:51

Самым очевидным первым шагом при анализе разработанной системы является визуализация ее симуляций (rollouts). Например, при тестировании системы уклонения от столкновений графики наглядно показывают два режима поведения: самолет уходит либо выше, либо ниже нарушителя. Аналогично, при симуляции перевернутого маятника можно сразу увидеть, в какие моменты он удерживает вертикальное положение, а когда теряет баланс и падает.

Если система обладает простой двумерной средой, инженеры могут полностью построить график ее стратегии (policy plot). Для перевернутого маятника состояние описывается углом отклонения ($\theta$) и угловой скоростью ($\omega$). График позволяет провести быструю проверку на здравый смысл: в точке (0,0), когда маятник идеально сбалансирован, крутящий момент равен нулю. Если маятник отклоняется вправо, система применяет отрицательный крутящий момент, чтобы вернуть его назад, и наоборот.

Для комплексных систем, таких как ACAS X, действия являются дискретными, а пространство состояний — четырехмерным. Человек не умеет визуализировать четыре измерения одновременно, поэтому инженерам приходится строить плоские «срезы» пространства состояний. На таком срезе осями могут выступать время до гипотетического столкновения и относительная высота между собственным самолетом и нарушителем.

Визуализация срезов позволяет находить парадоксальные особенности алгоритмов. Например, на графиках ACAS X была обнаружена пустая «выемка» (notch), где система не выдавала никаких рекомендаций (clear of conflict). Это объясняется тем, что в данной зоне алгоритм еще не определил, какое действие окажется эффективнее — набор высоты или снижение. Для визуализации сложных высокомерных пространств также применяется метод разбиения пространства состояний на регионы с фиксацией частоты действий агента в ходе симуляций. Этот подход незаменим для немарковских систем, чье поведение зависит от предыстории.

🔍 Важность признаков и анализ чувствительности 9:52

Методы оценки важности признаков призваны определить вклад различных факторов в итоговое поведение системы. Под признаками могут пониматься параметры состояния, внешние возмущения или отдельные пиксели изображения. В качестве примера рассматривается беспилотный самолет, определяющий угол поворота колес при движении по взлетно-посадочной полосе на основе снимков с камеры.

Одним из базовых способов оценки является анализ чувствительности (sensitivity analysis), исследующий изменение выходного сигнала при модификации одного конкретного признака. В симуляции перевернутого маятника инженеры могут зафиксировать все внешние возмущения на траектории, кроме одного, случайным образом перевыбрать это единственное возмущение и запустить симуляцию заново. Рассчитав стандартное отклонение или дисперсию итоговых показателей устойчивости для множества таких запусков, можно измерить чувствительность системы в конкретной точке времени. Эксперименты показывают, что разброс результатов и чувствительность к возмущениям закономерно снижаются ближе к концу траектории.

Аналогичный попиксельный анализ чувствительности применим и к задаче удержания полосы (taxi problem). Камера фиксирует изображение размером 64x64 пикселя (всего 4096 пикселей). Поочередное изменение каждого пикселя с последующим замером изменения угла руления позволяет наложить карту чувствительности прямо на исходный снимок. Оказывается, нейросеть наиболее чувствительна к пикселям, отображающим края взлетно-посадочной полосы и осевую линию, что подтверждает правильность ее логики.

Однако попиксельный перебор выборки вычислительно чрезвычайно дорог. Для экономии ресурсов инженеры используют обратное распространение ошибки (backpropagation) и строят карты значимости (saliency maps) на основе градиентов. Идея заключается в том, что модули градиентов функции устойчивости по отношению к возмущениям указывают на зоны, где даже малейшие изменения признаков сильнее всего скажутся на результате.

📈 Проблема насыщения и метод интегрированных градиентов 20:10

Классические карты значимости имеют серьезный недостаток — они не способны распознавать «насыщенные» признаки. Если функция выхода при определенном значении аргумента выходит на плато, градиент в этой точке становится практически нулевым. Обычный градиентный анализ сделает ошибочный вывод, что система нечувствительна к данному параметру, хотя глобально он имеет колоссальное значение.

Чтобы обойти эту проблему, используется метод интегрированных градиентов (integrated gradients). Алгоритм начинает работу с некоторой базовой точки (baseline) — например, с полностью черного изображения. Затем яркость картинки постепенно увеличивается до целевого уровня, и градиенты рассчитываются и усредняются на протяжении всего этого пути. Это позволяет «поймать» момент, когда скрытые признаки (например, линии разметки) только начинают проявляться на изображении и имеют высокий градиент.

В практической инженерии интерпретируемость моделей выполняет важнейшие бизнес-задачи. Один из слушателей лекции привел пример из своей работы в Apple, где алгоритмы сопоставляли спутниковые GPS-траектории для разграничения парковок и полей для гольфа. Поскольку траектории движения машин на парковке и гольф-каров на полях визуально идентичны для датчиков, анализ ошибок и карт значимости помог выявить необходимость добавления RGB-данных с камер, чтобы разделить эти сущности. Кроме того, объяснимость критически важна для акционеров и регулирующих органов, которые законодательно требуют прозрачности от внедряемых автоматизированных систем.

⚠️ Скепсис и ложные паттерны: границы карт значимости 31:56

Несмотря на популярность карт значимости и их модификаций вроде SmoothGrad, инженерам следует проявлять предельную осторожность. В фундаментальной научной работе «Sanity Checks for Saliency Maps» авторы доказали, что многие популярные методы объяснения ИИ выдают красивые картинки, которые на самом деле никак не зависят от параметров самой объясняемой модели.

В ходе экспериментов исследователи брали нейросеть, распознающую птицу на фотографии, и получали детальные карты значимости, четко очерчивающие силуэт пернатого. Однако, когда ту же самую исходную картинку пропустили через банальный базовый алгоритм поиска границ (edge detector), результат оказался идентичным картам значимости «сложного ИИ».

Более того, авторы статьи провели шокирующий эксперимент: они слой за слоем заменяли реальные обученные веса нейросети абсолютно случайными значениями, превращая ее в хаотичный необученный массив. К удивлению научного сообщества, карты значимости практически не изменились по мере продвижения к полностью случайной сети. Это доказывает, что некоторые методы объяснения независимы как от самой модели, так и от процесса генерации данных.

Человеческий мозг склонен находить глубокий смысл и логику там, где их нет, если пристально вглядываться в графики. В связи с этим в современном ИИ-сообществе активно развивается направление механистической интерпретируемости (mechanistic interpretability), пытающееся анализировать нейросети не на уровне пикселей, а на семантическом уровне (выделяя абстрактные понятия вроде «клюв» или «крыло»). Однако данный подход остается крайне спорным и, по мнению ряда исследователей, может лишь усугублять проблему ложных интерпретаций.

🤝 Значения Шарпли: учёт взаимодействия признаков 38:15

Главное ограничение традиционного анализа чувствительности — рассмотрение только одного признака за раз. В реальности факторы активно взаимодействуют друг с другом. Для математически строгого учета этих взаимодействий используются значения Шарпли (Shapley values), пришедшие из теории кооперативных игр.

Чтобы проиллюстрировать необходимость этого метода, лектор приводит упрощенный пример лесного пожара на сеточной карте. Нам нужно оценить вероятность возгорания ценной недвижимости в верхнем правом углу. По правилам симуляции, если соседняя ячейка горит, вероятность перекидывания огня на следующую составляет 30% (0.3). Если горят сразу две соседние ячейки, изъятие одной из них в ходе анализа чувствительности ничего не изменит: вероятность все равно останется равной 0.3 за счет второго соседа. Обычный анализ чувствительности сделает ложный вывод, что первая ячейка имеет нулевое влияние на исход, полностью упустив эффект избыточности и скрытого взаимодействия факторов.

Значения Шарпли решают эту проблему через оценку вклада признака во все возможные комбинации (субстейты) факторов. Алгоритм фиксирует случайное подмножество признаков, а остальные значения случайным образом выбирает из номинального распределения. Затем измеряется разница в итоговом предсказании, когда исследуемый признак принудительно включен в систему в своем исходном виде и когда он исключен (заменен случайной выборкой).

Основным препятствием для повсеместного внедрения значений Шарпли является комбинаторный взрыв. Даже для скромной сетки из 25 ячеек число возможных подмножеств превышает 16 миллионов. Просчитать их все в явном виде математически невозможно (intractable). На практике инженеры аппроксимируют значения Шарпли, случайно выбирая лишь репрезентативную выборку подмножеств, что дает отличные и стабильные результаты. Применение значений Шарпли к перевернутому маятнику помогло выявить топ-4 наиболее разрушительных внешних возмущений; их одновременное обнуление гарантированно спасало систему от падения.

🤖 Суррогатные модели: баланс точности и понятности 51:53

Еще одним фундаментальным подходом к объяснимости является построение суррогатных моделей (surrogate models). Если реальный агент управляется тяжелой и непрозрачной глубокой нейросетью, инженеры могут обучить поверх нее более простую, изначально интерпретируемую математическую структуру, которая будет аппроксимировать поведение главного алгоритма.

При создании суррогатных моделей инженерам приходится балансировать на весах компромисса между двумя свойствами:

Точностью соответствия (high fidelity) — насколько точно суррогат повторяет ходы оригинальной сети.
Интерпретируемостью (interpretability) — насколько легко человеку понять логику суррогата.

Если бы существовала простая модель, идеально и без потерь описывающая нейросеть, инженеры бы изначально внедрили ее в качестве основной системы управления.

В качестве суррогатов часто выступают линейные модели ($f(x) = \sum w_i x_i$), где веса ($w_i$) наглядно отражают важность каждого признака за счет своего масштаба. Поскольку глобально аппроксимировать нелинейную систему линейной невозможно, их используют локально (метод LIME). Очертив небольшой круг в пространстве состояний системы ACAS X и набрав там случайные точки, можно обучить локальную линейную модель. Ее веса покажут, что в данной узкой зоне решение полностью зависит, к примеру, от относительной высоты и абсолютно игнорирует время до столкновения. Попытка поднять точность (fidelity) линейной модели за счет добавления полиномиальных признаков (например, квадратов значений или их произведений) мгновенно уничтожает ее читаемость для человека.

Другим популярным суррогатом являются деревья решений (decision trees), для построения которых в языке Julia используется библиотека DecisionTree.jl. Суррогатное дерево решений наглядно раскладывает сложную стратегию на понятную цепочку условий: «Если высота больше нуля, проверить, превышает ли она 98 футов. Если да — угроз нет, если нет — дать команду на набор высоты». Масштабирование дерева улучшает точность аппроксимации, но превращает его в гигантский, нечитаемый для человека лабиринт ветвлений.

🐝 Контрфактуальный анализ и группировка режимов сбоя 1:00:59

В завершение лекции спикер поделилась личной историей о непредвиденных жизненных сбоях. Планируя завершить подготовку слайдов в пятницу, она утром обнаружила, что ее лицо сильно опухло из-за укуса неизвестного насекомого. Родственники заставили ее поехать в отделение неотложной помощи (urgent care), где она провела всю первую половину дня. В итоге презентация доделывалась глубокой ночью. На этом примере лектор объяснила суть контрфактуального анализа (counterfactuals): задать вопрос «что было бы, если бы я вернулась в прошлое и меня не укусил этот жук? Успела бы я подробно расписать этот раздел?». Контрфактуальные объяснения строятся на поиске минимальных изменений в прошлом, которые привели бы к совершенно иному исходу системы.

Для анализа накопленных логов отказов ИИ инженеры используют алгоритмы кластеризации, такие как k-means. Они позволяют автоматически группировать похожие траектории сбоев. При кластеризации перевернутого маятника на основе среднего угла отклонения и средней угловой скорости алгоритм четко выделяет два интуитивно понятных кластера: падение маятника влево и падение вправо.

Результаты кластеризации критически зависят от выбора признаков. Можно группировать сбои по векторам состояний, траекториям действий или по входящим возмущениям. В Стэнфорде ведутся перспективные исследования, где для поиска скрытых взаимосвязей в высокомерных пространствах возмущений применяется метод главных компонент (PCA). Еще более элегантным подходом является кластеризация на основе параметрической сигнальной временной логики (PSTL). Она позволяет автоматически присваивать формулы логики кластерам, разделяя сбои по четким временным критериям (например, «маятник упал строго до момента X» или «система потеряла стабильность после шага Y»).

Подводя итог многообразию математических методов детекции и интерпретации, лектор напоминает о здоровом реализме: инженерам нужно всегда помнить, что в нашей Вселенной существуют вещи, которые просто невозможно объяснить.