# Сидни Кац: «В валидации безопасности ИИ нет серебряной пули»

Источник: https://www.youtube.com/watch?v=x0aLBWTBOuQ
Канал: Stanford Online
Опубликовано: 13.11.2025

---

Обеспечение безопасности систем искусственного интеллекта и сложных алгоритмов управления сегодня стало одной из самых актуальных технологических задач. В рамках вебинара Стэнфордского университета (Stanford Online) доктор Сидни Кац представила комплексную методологию валидации критически важных для безопасности систем принятия решений. Главная идея исследователей заключается в том, что универсального метода тестирования не существует, и высокая надежность достигается лишь за счет многоуровневого комбинирования различных аналитических инструментов.

## 🧩 Сложные системы принятия решений и вызовы эпохи ИИ
[[JUMP:01:14]]

Под сложной системой принятия решений в Лаборатории интеллектуальных систем Стэнфорда (SISL) понимают любой комплекс, который поглощает огромные объемы разнородной информации и на ее основе делает выбор. К этой категории относятся беспилотные автомобили, автономная авиация, робототехника, финансовые алгоритмы и медицинские системы. Сегодня наиболее популярным и быстроразвивающимся подклассом таких систем стал искусственный интеллект.

Специфика подобных систем заключается в колоссальной ответственности за их сбои. Если ошибка в обычном программном обеспечении приводит лишь к бытовым неудобствам, то в критически важных сферах последствия могут быть катастрофическими, включая масштабное уничтожение имущества и гибель людей. При этом заглянуть внутрь современной ИИ-модели и понять, как именно она функционирует и в какой момент может дать сбой, чрезвычайно трудно из-за ее внутренней сложности.

Именно поэтому валидация ИИ требует колоссальных, системных усилий. Накопленный академический опыт позволил Сидни Кац в соавторстве со своим научным руководителем Майклом Кохендерфером и коллегами по лаборатории написать профильный учебник «Алгоритмы валидации» (Algorithms for Validation). Эта книга стала третьей в стэнфордской серии учебников по алгоритмам проектирования и оптимизации систем. По словам Кац, логика разработки здесь циклична: сначала инженеры проектируют и оптимизируют робота или беспилотник, а затем с помощью специализированных алгоритмов валидации проверяют, работает ли созданный дизайн так, как задумывалось.

## 🧀 Модель «швейцарского сыра»: почему не существует идеального решения
[[JUMP:05:13]]

Для запуска любого алгоритма валидации необходимы два ключевых компонента:

* **Система:** сам тестируемый объект, работающий во времени (беспилотник, финансовый алгоритм или медицинская сеть).
* **Спецификация:** четко сформулированные требования к тому, что система должна или не должна делать.

Например, для беспилотного автомобиля базовая спецификация может звучать как «не сталкиваться с другими машинами на дороге». Спецификации могут дополняться требованиями избегать наездов на пешеходов и строго соблюдать правила дорожного движения, включая обязательную остановку на знаках «Стоп».

Передавая систему и спецификацию алгоритму валидации, инженеры стремятся получить информацию о том, удовлетворяет ли комплекс заданным требованиям. На практике эта информация делить на несколько категорий:

1.  **Анализ отказов:** поиск конкретных сценариев, при которых система нарушает спецификацию (например, выявление ситуаций, приводящих к аварии беспилотника).
2.  **Формальные гарантии:** строгое математическое доказательство того, что при определенных допущениях система никогда не нарушит правила.
3.  **Объяснения:** аналитические выкладки, объясняющие причины конкретного сбоя или логику принятия системой определенного решения.
4.  **Мониторинг времени выполнения (Runtime monitors):** инструменты, отслеживающие поведение системы непосредственно в процессе ее реальной эксплуатации.

По мнению доктора Кац, в сфере безопасности ИИ не существует «серебряной пули» — невозможно применить один метод и заявить о полной готовности системы к выходу на рынок. Взамен исследователи предлагают использовать модель «швейцарского сыра», заимствованную из системного анализа рисков. Каждый метод валидации имеет свои фундаментальные ограничения и недостатки — «дыры», подобно ломтикам сыра. Однако, по словам Кац, если сложить достаточное количество таких ломтиков вместе, дыры не совпадут, и ни один критический сбой не прорвется наружу. Задача инженеров заключается в том, чтобы знать ограничения каждого метода и последовательно собирать их в единое обоснование безопасности (safety case).

## 📉 Анализ отказов и преодоление проблемы редких событий
[[JUMP:08:43]]

Первым и наиболее распространенным подходом является анализ отказов. Чтобы проиллюстрировать его специфику, Сидни Кац приводит пример из области авиации: симуляцию предотвращения столкновений в воздухе. Синее воздушное судно пытается избежать сближения с красным самолетом, руководствуясь командами бортовой системы. Спецификация требует, чтобы синий самолет не входил в защитную зону вокруг красного, предотвращая опасное сближение (near midair collision).

Повторные симуляции одного и того же сценария не всегда дают одинаковый результат из-за шума датчиков, непредсказуемой реакции пилота и других меняющихся факторов среды. В результате некоторых запусков системы происходят критические инциденты. Возникает стандартный инженерный вопрос: какова вероятность такого отказа? Ответ на него обязателен, например, при сертификации систем в Федеральном управлении гражданской авиации США (FAA).

Обычный статистический метод (Монте-Карло) предлагает запустить симуляцию множество раз и посчитать долю аварий. Однако для реальных авиационных систем стандартный подход не работает: они проектируются с расчетом на вероятность отказа порядка одного на миллион или даже на миллиард. При обычном тестировании для обнаружения хотя бы одного сбоя потребуются миллионы или миллиарды дорогостоящих симуляций, что делает вычисления экономически и технически невозможными.

Для решения этой проблемы Лаборатория SISL активно использует метод выборки по значимости (Importance Sampling). Вместо симуляции реального мира инженеры искусственно создают синтетическую среду, в которой отказы происходят значительно чаще. Полученные траектории затем математически перевзвешиваются с помощью «весов значимости» (importance weights) в соответствии с тем, насколько они вероятны в реальных условиях. В результате, выполнив небольшое число симуляций, ученые получают точную и несмещенную оценку реальной микроскопической вероятности сбоя, не раздувая вычислительный бюджет.

## 🛡️ Формальные гарантии и математическая верификация нейросетей
[[JUMP:16:46]]

Главное достоинство анализа отказов — его «черноящичный» (black-box) характер: инженерам достаточно иметь доступ к входам и выходам симулятора, не зная внутренней структуры ИИ. Однако этот метод имеет весомый минус: он не дает абсолютных гарантий. Отсутствие найденных багов за время тестирования означает лишь то, что они не попались в симуляции, но не доказывает их полное отсутствие.

Чтобы получить железные доказательства безопасности, применяются формальные методы. Их суть заключается в расчете всех математически достижимых состояний системы. Для этого инженерам приходится вводить строгие ограничения и допущения (например, жестко фиксировать время реакции пилота или максимальный уровень шума высотомера). Если расчеты показывают, что при заданных границах ни одна из теоретически возможных траекторий не пересекает зону столкновения, система признается абсолютно безопасной — но строго в рамках сделанных допущений.

Для наглядности Кац предлагает простую математическую игру, которую можно решить в уме. Представьте объект, находящийся внутри квадрата на плоскости координат XY. На следующем шаге его координата X гарантированно увеличивается на 2, а Y — на 1. Сдвинув все точки исходного квадрата, мы получаем новый квадрат — это и есть полное множество достижимых состояний на следующем шаге.

Формальные методы автоматизируют аналогичные вычисления, но на уровне сложнейших уравнений. Поскольку современные нейросети по своей сути являются гигантскими математическими формулами, к ним тоже можно применять этот подход. Развивающееся направление верификации нейронных сетей (Neural Network Verification) позволяет компьютерам просчитывать точные диапазоны выходных сигналов ИИ для целых массивов входных данных. Например, можно математически доказать, что при определенном положении встречного самолета бортовой ИИ гарантированно выдаст пилоту команду на снижение. Единственным ограничением метода остается его высокая вычислительная емкость, мешающая масштабировать верификацию до размеров гигантских сетей.

## 🔍 Объяснимость ИИ и механистическая интерпретируемость
[[JUMP:23:01]]

Третий блок защитных технологий направлен на объяснение внутренней логики моделей. Сюда входят визуализация стратегий (policy visualization), анализ чувствительности (sensitivity analysis) для определения ключевых факторов сбоя и характеризация режимов отказа для их последующего устранения.

Особый интерес у исследователей вызывает новое русло в этой сфере — механистическая интерпретируемость (mechanistic interpretability). Сидни Кац демонстрирует ее работу на примере системы компьютерного зрения, используемой для удержания самолета на центральной линии взлетно-посадочной полосы по показаниям бортовой камеры. Человек при взгляде на полосу ориентируется по боковым линиям разметки и осевой линии. Когда солнце меняет положение и самолет отбрасывает на бетон массивную тень, пилот-человек проигнорирует её. Однако как поведет себя ИИ?

Методы механистической интерпретируемости позволяют заглянуть внутрь нейросети и увидеть разницу между тем, что ИИ «видит», и тем, что он реально «использует» для принятия решений. Анализ показывает, что при фиксации всех визуальных признаков 8 из 9 наиболее заметных для нейросети элементов изображения были связаны именно с падающей тенью. Это могло бы вызвать тревогу у инженеров. Однако последующий тест на значимость признаков доказал, что для непосредственного вычисления курса нейросеть опиралась на девятый признак — крайнюю линию разметки, присвоив теням минимальный математический вес. Подобные инсайты позволяют значительно укрепить доверие к системе при построении обоснования безопасности. Сегодня этот подход активно переносится на большие языковые модели (LLM), позволяя «распутывать» сложные концепты внутри эмбеддингов. По мнению доктора Кац, это критически важно, например, в скоринговых системах одобрения кредитов, чтобы гарантировать, что алгоритм не принимает решения на основе защищенных законом дискриминационных признаков.

## 🚨 Мониторинг во время работы: защита от непредсказуемой реальности
[[JUMP:29:18]]

Все три вышеописанных метода относятся к офлайн-валидации: они выполняются до релиза системы в реальный мир. Их фундаментальная уязвимость — необходимость опираться на созданную человеком модель мира. Построение таких моделей отнимает колоссальное количество времени, и инженеры неизбежно упускают неочевидные граничные случаи (edge cases).

В качестве иллюстрации доктор Кац приводит два реальных дорожных инцидента:

* **Случай с беспилотником Waymo в Сан-Франциско:** автомобиль столкнулся с прорывом пожарного гидранта, когда мощный столб воды бил вертикально вверх прямо посреди проезжей части. Смоделировать подобное в симуляторе офлайн практически невозможно.
* **Случай с электромобилем Tesla:** во время движения луна находилась низко над горизонтом и из-за особого оттенка была идентифицирована как непрерывно горящий желтый сигнал светофора. Машина постоянно замедлялась, сбитая с толку космическим объектом.

Именно такие непредсказуемые сценарии заставляют разработчиков искать дополнительные рубежи защиты. Единственным выходом становится внедрение систем мониторинга времени выполнения (Runtime monitoring). Этот инструмент непрерывно анализирует, находится ли ИИ в ситуации, под которую он не обучался или которая не закладывалась в офлайн-тесты. Как только монитор фиксирует критический уровень неопределенности, он мгновенно бьет тревогу, передавая управление удаленному оператору-человеку или переводя комплекс в безопасный резервный режим (backup safe mode). Мониторинг на ходу выступает тем самым финальным слоем «швейцарского сыра», который страхует систему от любых ошибок предыдущих этапов валидации.

## 💬 Сессия вопросов и ответов: от полноты спецификаций до человеческого фактора
[[JUMP:34:00]]

В завершение вебинара Сидни Кац ответила на вопросы слушателей, затронув наиболее острые методологические проблемы отрасли.

**Проблема неполноты спецификаций.** На вопрос о том, как гарантировать полноту и правильность заложенных правил, исследовательница признала, что идеального способа не существует. Её практическая рекомендация — формулировать как можно больше разнообразных спецификаций и тестировать их через анализ чувствительности. Если выясняется, что траектория беспилотника критически зависит от изменения дистанции до соседа всего на пару футов (высокая чувствительность порога), значит, формулированию этой конкретной спецификации нужно уделить максимальное внимание.

**Область применения методов.** Было подчеркнуто, что методы анализа отказов универсальны благодаря своему «черноящичному» подходу: под капотом системы может находиться глубокая нейросеть, классический контроллер или огромный массив жестких правил «если-то» — алгоритм выборки по значимости сработает в любом случае. В то же время формальные гарантии требуют «белоящичного» доступа к коду, что накладывает ограничения на их масштабирование. Математически формализовать требования для LLM (например, «никогда не генерировать язык ненависти») невероятно сложно, что делает их верификацию вызовом будущего.

**Учет человеческого фактора.** При построении обоснования безопасности инженерам приходится взаимодействовать с множеством стейкхолдеров: производителями оборудования, конечными пользователями и регуляторами в лице FAA. Например, при аудите авиационных систем регуляторы требуют оценивать не только сухую вероятность катастрофы, но и частоту ложных срабатываний. Если защитный алгоритм будет постоянно слать пилоту ложные предупреждения, тот начнет их игнорировать, превратив систему безопасности в источник опасного шума (nuisance alert). 

Сидни Кац также вспомнила случай из практики SISL: в рамках симуляций они просчитывали редкий пограничный сценарий, в котором пешеход намеренно и внезапно бежит прямо на капот автономного автомобиля. Модель предсказала исход инцидента, а всего через несколько дней в реальных новостях появились кадры, где хулиганы в точности повторили это действие на улице с настоящим беспилотником. Это стало редким примером того, как математическая модель опередила и предсказала сценарии из реальности.

**Когда система готова к выпуску?** Отвечая на вопрос о критериях достаточности тестирования, Кац отметила, что это не столько чисто инженерное, сколько сложное регуляторное и политическое решение, требующее консенсуса экспертов. В авиации этот процесс жестко регламентирован необходимостью получения сертификата. Важнейшим шагом является валидация самого симулятора: так, авиамодель для тестов FAA создавалась на основе скрупулезного анализа архивных радарных данных полетов над США за 9 месяцев. Инженеры обязаны доказать, что их виртуальная среда полностью идентична реальному небу. 

Главный вывод вебинара заключается в том, что проектирование и валидация ИИ — это не линейный процесс, а непрерывный итеративный цикл. Инженеры создают промежуточный дизайн, прогоняют его через все слои тестов, показывают результаты регуляторам, собирают обратную связь и снова возвращаются к чертежной доске. Только такой цикличный подход в сочетании с многослойной защитой способен гарантировать безопасность умных машин в хаотичном реальном мире.