Как заглянуть внутрь ИИ: от теории игр до разреженных автокодировщиков

Развитие систем искусственного интеллекта ставит перед разработчиками критически важный вопрос: можем ли мы полностью доверять решениям «черного ящика», особенно в задачах, связанных с безопасностью жизни? В рамках курса AA228V в Стэнфордском университете прошла лекция, посвященная методам интерпретируемости и объяснимости ИИ (Explainability and Interpretability). Автор разбирает эволюцию подходов к дешифровке логики моделей — от классического анализа простых систем до передовых методов механистической интерпретируемости больших языковых моделей.

🏆 Итоги третьего проекта: верификация критически важных систем 0:06

Подведение итогов Project 3 в рамках учебного курса Стэнфордского университета показало высокую плотность результатов. Студенты решали задачу анализа достижимости (reachability analysis) безопасности систем. Разрыв в первой четверке лидеров оказался минимальным, а основные различия свелись к выбранным математическим подходам для систем разного масштаба.

На третьем месте расположился участник с результатом 29,72 балла. Для малой системы он применил базовую аппроксимацию параллелепипедами (box over-approximation). Для средней системы использовалось регулярное разложение Тейлора для линеаризации с применением альфа-границ для получения корректных интервалов на каждом временном шаге. На большой системе участник задействовал верификационную технику AI squared ($AI^2$).

Обладатель второго места на лидерборде набрал около 70,09 балла. Его малая система использовала прямоугольники, выровненные по методу главных компонент (PCA-aligned rectangle approach), что позволило превзойти стандартный метод. На средней системе участник дошел до вычисления гессиана (матрицы вторых производных), увеличив точность. На большой задаче он применил естественную функцию включения (natural inclusion function) для усиления алгоритма $AI^2$.

Победитель лидерборда для малой системы выбрал подход на основе зонотопов (zonotopes). Лектор отметил, что зонотопы были крайне популярны в сфере сертификации нейросетей примерно в 2021适用 году. На средней системе архитектура была схожа с разложением Тейлора, а на большой — ключевой идеей лидера стало смещение фокуса партиционирования (разделения) с начального состояния на последующие этапы. Все победители получили приглашение в преподавательский клуб (Faculty Club) вместе с профессорами Сидни и Майклом Кочендерфером.

🚗 Проблема «черного ящика» в критических сценариях 5:18

После разбора проектов лектор перешел к основной теме — объяснимости машинного обучения с упором на безопасность. Спикер предложил слушателям мысленный эксперимент: представить себя главным инженером в компании уровня Waymo, крупном авиастроительном холдинге или банке. Вы провели все тесты, оценили вероятности отказов, система долгое время функционирует нормально, но у клиента после 100 или 1000 часов работы внезапно происходит критический сбой, вызвавший резонанс в СМИ. Инвесторы напуганы, и генеральный директор требует четких ответов.

Главному инженеру предстоит ответить на три фундаментальных вопроса:

Почему произошел этот конкретный сбой и что именно пошло не так?
Как изменить систему или датасет, чтобы минимизировать риски повторения проблемы?
Как гарантировать инвесторам или регулятору, что дефект устранен?

В качестве примера простой, но наглядной модели рассматривается система Cart Pole (тележка с перевернутым маятником), аналогичная той, что студенты исследовали в учебных проектах. Модель управляется обученной нейросетью. Большинство симуляций проходят успешно, но в одной из них тележка заваливается в зону отказа. Главная трудность в том, что в момент фиксации аварии система уже сломана. Истинный источник сбоя лежит где-то раньше по временной шкале, когда началось слишком быстрое отклонение маятника, из которого алгоритм уже не смог выйти.

📊 Распределение ответственности: от Leave-One-Out до значений Шапли 10:27

Для поиска момента сбоя в траектории из 40 временных шагов можно применить пошаговый анализ исключения — Leave-One-Out. На этапе исполнения фиксируются все шумы (по углам, скоростям и т. д.). Затем симуляция запускается заново, но поочередно для каждого шага значение шума обнуляется, имитируя «идеальное предсказание». Если при обнулении шума на 25-м шаге траектория стабилизируется, значит, этот шаг и был критическим.

Однако на практике этот метод часто не срабатывает. Студенты в аудитории резонно предположили, что шумы могут быть коррелированы между собой. Лектор подтвердил: если система фиксирует три сильных отклонения подряд, исключение одного шага не вернет тележку на безопасный курс. Требуется оценивать влияние групп факторов.

Подобная задача распределения заслуг или вины внутри группы давно изучается в экономике и теории игр (например, оценка вклада каждого участника в командный проект, где есть дублирование функций или синергетический эффект). Решением стали значения Шапли (Shapley values), разработанные в 1950-х годах. Метод оценивает вклад каждого элемента, перебирая все возможные подмножества участников и сравнивая результаты с ними и без них.

Несмотря на математическую строгость, значения Шапли сталкиваются с проблемой комбинаторного взрыва. Для траектории всего в 40 шагов количество потенциальных подмножеств требует выполнения колоссального числа операций — порядка $10^{47}$. Это делает прямое применение метода Шапли в высокоразмерных пространствах признаков невозможным без ограничений (например, оценки только локальных групп из 4–5 последовательных шагов).

🎨 Визуализация стратегий и ловушка ложных корреляций 18:26

Мощным практическим инструментом выступает прямая визуализация пространства состояний модели. Спикер поделился личным опытом: в прошлом году в рамках этого же курса он обучал нейросеть методом поведенческого клонирования (behavioral cloning) на основе действий агента-эксперта. При тестировании Cart Pole обнаруживались странные сбои.

Построив двухмерную карту пространства состояний и оценив выходы политики в каждой точке, команда обнаружила «мертвую зону». Внутри нее управляющий сигнал хаотично менялся с +1 на -1 и обратно. Эксперт, на данных которого обучался ИИ, всегда удерживал маятник строго по центру, из-за чего в обучающей выборке вообще не было примеров из крайних положений. Попав туда из-за случайного шума на этапе работы, модель выдавала случайные команды и роняла маятник.

Для сложных систем с высокой размерностью пространств визуализацию можно проводить с помощью:

Фиксации второстепенных переменных (например, обнуления первых трех признаков);
Алгоритмов снижения размерности, таких как метод главных компонент (PCA) или популярный ранее алгоритм t-SNE.

Простой, но эффективный совет, заимствованный лектором из блога Андрея Карпати (Andrej Karpathy) — всегда вручную отсматривать примеры с наихудшими показателями функции потерь (worst-case performing samples). На слайдах из датасета беспилотников Waymo было показано, что такой подход сразу подсвечивает системные проблемы: например, модель стабильно ошибается, если на дороге лежит снег.

Логика работы ИИ часто строится на ложных корреляциях (spurious correlations). В качестве исторической аналогии приводится история коня по кличке «Умный Ганс» (Clever Hans), жившего в Германии около 100 лет назад. Его хозяин Вильгельм фон Остен утверждал, что конь умеет считать. На самом деле Ганс не знал арифметики, а просто считывал микродвижения и реакцию своего хозяина, вовремя останавливая стук копытом ради яблока.

Точно так же ведут себя модели компьютерного зрения. Классификатор птиц может показать идеальную точность на обучающей выборке, но если все птицы конкретного вида на фото были сняты на фоне синего неба, модель будет реагировать исключительно на синий фон, полностью игнорируя саму птицу. Другой пример — привязка к таймштампам на фото. Если тесты беспилотника на пляже всегда шли утром, а в городе — вечером, модель при оценке геолокации начнет смотреть на время в углу снимка, выдавая ответ «пляж» для любого утреннего кадра.

👁️ Заглянуть внутрь нейросети: методы компьютерного зрения 28:41

Для выявления скрытых аномалий в зрении применяются несколько подходов. Самый очевидный — метод пертурбаций (возмущений), когда пиксели или целые патчи на изображении поочередно закрываются черными квадратами. Если при закрытии определенной области выход модели резко меняется, значит, этот патч критически важен для предсказания. Минус подхода — высокая вычислительная стоимость из-за необходимости совершать огромное количество прямых проходов (forward passes).

Второй подход — карты значимости (Saliency maps), использующие градиент функции потерь по отношению к входному изображению. Однако метод часто выдает зашумленную картинку, где тяжело что-то разобрать. Проблема кроется в математических свойствах классификаторов. На финальных стадиях логиты нормируются через функцию softmax. Если пиксель имеет колоссальное значение для распознавания объекта, его значение в softmax уходит далеко вправо, из-за чего математический градиент в этой точке становится практически равным нулю. Самые важные пиксели на итоговой карте могут оказаться черными.

Для решения этой проблемы был создан метод интегрированных градиентов (Integrated Gradients). За основу берется базовое полностью черное изображение, а затем шаг за шагом выполняется интерполяция в сторону исходного кадра с суммированием градиентов на каждом этапе. Это позволяет пройти через области с высоким градиентом и зафиксировать реальную важность точек.

Интегрированные градиенты можно адаптировать и для больших языковых моделей (LLM). Поскольку слова (токены) нельзя интерполировать напрямую, процесс переносят в пространство эмбеддингов на первом уровне сети, постепенно замещая «нулевые» векторы осмысленными токенами, что дает оценку влияния каждого слова на результат.

Для высокоуровневого анализа применяется метод Grad-CAM. Вместо дифференцирования через всю сеть до уровня пикселей, разработчики берут градиенты относительно карт активаций последних семантических слоев нейросети. Это дает грубую, но понятную человеку локализацию: например, можно увидеть, что при распознавании собаки модель смотрит на ее голову, а при распознавании кота — почему-то на заднюю часть тела.

При этом лектор призвал скептически относиться к инструментам объяснимости, упомянув известное исследование-«sanity check» (проверку на вменяемость) 2018 года. Ученые полностью рандомизировали веса обученных моделей, превратив их в генераторы случайного шума. Однако некоторые методы (например, Guided Grad-CAM) продолжали выдавать четкие, красивые карты значимости, идентичные первоначальным. Это доказывает, что метод визуализировал не реальную логику весов конкретной сети, а лишь структуру самого входного изображения.

🏦 На пороге 2026 года: этика, причинно-следственные связи и большая перемена 42:34

Проблема интерпретируемости обостряется в 2026 году с повсеместным внедрением LLM в финансовую сферу. Рассматривается кейс оценки кредитоспособности клиента по его резюме. Регулятор жестко запрещает использовать признак этнической принадлежности (ethnicity) для вынесения вердикта. Разработчик может просто удалить эту строчку из входных данных, однако модель способна легко восстановить расу или национальность по косвенным признакам — почтовому индексу (zip code), религиозным предпочтениям или специфическим формулировкам в тексте. Простые методы анализа входов и выходов здесь бессильны, нужно изучать скрытые внутренние представления.

Спикер провел историческую параллель с затяжными дебатами 1950-х годов о связи курения, генетики и рака легких. Обсервационные (наблюдательные) данные фиксировали лишь сухую корреляцию признаков в рамках матрицы $3 \times 3$. Ведущие статистики того времени спорили, какая из двух причинно-следственных цепочек верна:

Курение напрямую вызывает рак легких;
Существует определенный скрытый ген, который одновременно вызывает и сильную тягу к курению, и рак легких.

Чисто статистически обе гипотезы описывали выборку одинаково. Обычные Байесовские сети, активно применяемые в ИИ, отлично моделируют корреляции, но принципиально не способны определить истинное направление причинности и спрогнозировать результаты внешнего вмешательства (интервенции). Напротив, казуальные графы Джуды Перла (Judea Pearl) позволяют просчитать последствия явного запрета на курение и устойчивы к сдвигу распределения данных (distributional shift).

Лектор предложил классифицировать методы объяснения с помощью матрицы $2 \times 2$:

	Ассоциации / Корреляции	Механизмы / Причинность
Относится к миру	Байесовские сети	Дифференциальные уравнения (Навье-Стокса, Шредингера), казуальные графы Перла
Относится к модели	Карты салиентности, значения Шапли	Механистическая интерпретируемость (разреженные автокодировщики, трассировка цепей)

🧬 Механистическая интерпретируемость и разреженные автокодировщики 51:33

Цель механистической интерпретируемости — превратить сложную нейросеть в понятный граф причинно-следственных связей. Для этого нужно решить три сложнейшие задачи:

Изолировать концепты (узлы графа) внутри скрытых слоев;
Построить суррогатную казуальную модель (традиционные алгоритмы обучения Байесовских сетей вроде K2 пасуют перед размерностями более 50 узлов, тогда как в LLM скрытых концептов миллионы);
Выровнять казуальную модель с реальными путями прохождения сигналов в сети.

Долгое время исследователи пытались найти «нейроны перевода» или «нейроны расы», проверяя скалярные значения векторов, но безуспешно. Современный консенсус ИИ-сообщества заключается в том, что смыслы кодируются не отдельными нейронами, а направлениями в многомерном пространстве. При этом векторов-концептов в модели гораздо больше, чем физических измерений в слое (явление суперпозиции). Это возможно благодаря фундаментальному свойству линейной алгебры: в пространствах очень высокой размерности случайные векторы с высокой вероятностью оказываются почти ортогональными друг другу. Любая конкретная активация модели содержит в себе смесь из множества направлений-смыслов.

Для извлечения этих скрытых смыслов компании Anthropic и OpenAI применили архитектуру разреженных автокодировщиков (Sparse Autoencoders, SAE). Входной вектор эмбеддинга пропускается через полносвязный слой кодировщика, активируется функцией ReLU и подается на декодировщик для реконструкции исходного вектора.

Ключевым элементом здесь выступает штраф за неразреженность ($L_1$-регуляризация) в скрытом слое автокодировщика. Это заставляет систему удерживать подавляющее большинство концептов в нулевом состоянии, активируя для каждого конкретного примера лишь единицы наиболее точных базовых векторов.

🌉 Клод на мосту «Золотые Ворота» и трассировка схем 1:07:19

Успешность работы разреженных автокодировщиков была доказана знаменитым экспериментом Anthropic с моделью Golden Gate Claude. С помощью SAE исследователи нашли в нейросети конкретное направление, отвечающее за концепт моста «Золотые Ворота». Затем они провели казуальную интервенцию: принудительно активировали этот вектор на этапе генерации. В результате на любой нейтральный вопрос вроде «Кто ты?» модель Claude настойчиво отвечала: «Я — мост „Золотые Ворота"».

Подобный контроль позволяет осуществлять трассировку цепей (circuit tracing) — отслеживать, как именно казуально связаны внутренние концепты. Например, можно увидеть цепочку, связывающую маркеры «Техас» и «столица», которая приводит к генерации токена «Остин». Возвращаясь к банковскому примеру с дискриминацией, данная технология позволяет инженерам четко локализовать скрытый узел «этническая принадлежность» и принудительно обнулять его в процессе работы, гарантируя регуляторам чистоту алгоритма.

Механистическая интерпретируемость официально признана одним из главных технологических прорывов 2026 года по версии журнала MIT Technology Review. Тем не менее, перед учеными стоит огромный пласт нерешенных задач, главная из которых — масштабирование трассировки цепей и интеграция этих подходов с методами формальной верификации (такими как анализ достижимости систем безопасности).