# Как алгоритмы Стэнфорда находят скрытые уязвимости в критических системах

Источник: https://www.youtube.com/watch?v=v6edojW2vJI
Канал: Stanford Online
Опубликовано: 07.04.2025

---

В рамках гостевой лекции в Стэнфордском университете доктор Энтони Корсо (Anthony Corso), сооснователь компании Terra AI и бывший исполнительный директор Стэнфордского центра безопасности ИИ, представил передовые подходы к верификации систем, критичных для безопасности. Профессор Сидни (Sydney) и Энтони Корсо подробно разобрали, как методы машинного обучения, включая обучение с подкреплением и диффузионные модели, позволяют находить скрытые уязвимости в автономном транспорте. Вторая часть лекции была посвящена тому, как эти же алгоритмические инструменты помогают решать глобальные климатические задачи, превосходя по эффективности экспертов-людей.

## 🤖 ИИ как противник: Обучение с подкреплением для поиска отказов
[[JUMP:0:05]]

В начале лекции профессор Сидни напомнила пройденный материал, отметив, что на предыдущих занятиях студенты изучали фальсификацию систем с помощью методов планирования и поиска по дереву. В частности, обсуждались эвристический поиск, алгоритм быстро исследующих случайных деревьев (RRT) и поиск по дереву Монте-Карло (MCTS). 

Новым эффективным инструментом для решения этой задачи выступает обучение с подкреплением (Reinforcement Learning, RL). В рамках тестирования безопасности исследователи создают контролируемую среду, где ИИ-агент выступает в роли «противника» (adversary) для проверяемой системы. На каждом временном шаге этот противник генерирует возмущения для системы. Проверяемая система совершает шаг, после чего возвращает противнику вознаграждение (reward).

В контексте поиска отказов логика вознаграждения инвертируется. Противник получает тем большую награду, чем хуже становится ситуация для системы. Максимальное вознаграждение выдается тогда, когда система полностью выходит из строя или совершает аварию. Профессор Сидни подчеркнула, что в рамках курса этот агент называется исключительно «противником», чтобы не путать его с агентами внутри самой тестируемой системы.

Главными преимуществами использования готовых алгоритмов обучения с подкреплением для фальсификации систем Сидни назвала следующие факторы:

* **Эффективность выборки (Sample Efficiency):** В сфере RL десятилетиями велись исследования, направленные на минимизацию шагов внутри цикла для обучения хорошей политики, что позволяет находить отказы за минимальное число симуляций.
* **Генерализация состояний:** В отличие от поиска по дереву, который жестко привязан к конкретному начальному состоянию, алгоритмы RL способны обобщать опыт и находить траектории отказов сразу из множества различных начальных точек.

В качестве иллюстрации Сидни продемонстрировала анимацию симулятора «Continuum World», где траектории беспилотника изначально двигались в обход препятствия. По мере обучения агент-противник научился подбирать такие микро-возмущения на каждом шаге, которые прогрессивно смещали траектории и приводили к неминуемому столкновению с препятствием.

Этот комплексный подход, использующий MCTS и обучение с подкреплением для поиска наиболее вероятных отказов, получил устойчивое название — адаптивное стресс-тестирование (Adaptive Stress Testing, AST). Сидни с гордостью упомянула, что концепция AST была изначально сформулирована именно в их стэнфордской лаборатории бывшим студентом Ричи Ли (Richie Lee).

## 🚗 Стресс-тестирование автономного транспорта: От симуляций к реальности
[[JUMP:12:04]]

Принявший слово Энтони Корсо, выпускник Стэнфорда и сооснователь Terra AI, начал свое выступление с напоминания о том, зачем человечеству вообще нужна автоматизация транспорта. По его словам, в мире ежегодно в дорожных авариях погибает более миллиона человек, и в 94% случаев причиной становится человеческий фактор. Внедрение безопасного автономного вождения способно радикально снизить эту статистику. В авиации ИИ-система предупреждения столкновений ACAS X, над которой также работали стэнфордские исследователи, уже улучшила фактор безопасности в 3–5 раз.

Тем не менее, реальные риски остаются крайне высокими. Корсо привел в пример историческую аварию 2018 года в Аризоне с участием беспилотника Uber ATG (подразделение впоследствии закрылось), которая стала первым случаем гибели пешехода под колесами автономного автомобиля. Женщина катила велосипед через дорогу, и система не смогла корректно классифицировать этот комбинированный объект, ошибочно спрогнозировав траекторию ее движения. 

Беспилотные системы остаются хрупкими перед лицом нестандартных ситуаций. Корсо продемонстрировал забавный, но опасный пример из практики Tesla: автопилот машины внезапно начал сходить с ума, видя перед собой бесконечную вереницу одновременно зажигающихся желтых светофоров. Как оказалось, машина просто ехала за грузовиком, который перевозил демонтированные светофоры в кузове.

Регуляторы предъявляют жесточайшие требования к безопасности. В авиации стандарт требует, чтобы вероятность катастрофического отказа не превышала $10^{-9}$ на каждые 150 секунд полетного времени. Чтобы доказать такое качество методом прямого Монте-Карло, инженерам требуются миллиарды симуляций. Корсо отметил, что для валидации системы ACAS X на суперкомпьютере было запущено около 100 миллиардов симуляций. Именно поэтому адаптивное стресс-тестирование (AST) так важно — оно позволяет находить критические уязвимости целенаправленно и быстро.

## 🎯 Три главных вызова адаптивного стресс-тестирования
[[JUMP:25:50]]

Энтони Корсо выделил три фундаментальные проблемы, с которыми сталкиваются инженеры при попытке применить адаптивное стресс-тестирование к сложным реальным системам:

1.  **Сложность спецификации цели (Objective Specification):** Не всегда очевидно, что считать отказом.
2.  **Моделирование среды (Environment Modeling):** Создание реалистичного окружения и поведения людей.
3.  **Оптимизация (Optimization):** Поиск отказов на длинных временных горизонтах.

Описывая первый вызов, Корсо рассказал о раннем эксперименте с симуляцией наезда на пешехода. Исследователи создали простую модель: пешеход пересекает улицу, а машина должна затормозить. В качестве возмущений агенту-противнику разрешили менять траекторию пешехода и накладывать шум на сенсоры автомобиля. Награда рассчитывалась на основе расстояния до столкновения. 

Результат оказался обескураживающим: ИИ-противник просто заставил пешехода со всех ног побежать и сознательно врезаться в бок уже остановившегося автомобиля. По словам Корсо, этот пример напоминает реальные случаи мошенничества с автостраховкой, но для валидации безопасности беспилотника он бесполезен. Инженерам нужно находить ошибки, в которых виновата сама машина. 

Чтобы исправить это, команда интегрировала концепцию RSS (Responsibility-Sensitive Safety), разработанную Intel и Mobileye. Это математическая кодификация правил дорожного движения (например, «не подрезать», «соблюдать дистанцию»). Когда цель переписали с требованием найти сценарий, где виновником аварии признается именно беспилотник, алгоритм выдал совершенно другую, пугающе реалистичную траекторию. Пешеход двигался по сложной диагонали, а шум на сенсорах искажался так, что машина до последнего момента «считала», будто человек все еще стоит на тротуаре, что и привело к жесткому столкновению.

Говоря о моделировании среды, Корсо подчеркнул, что симулировать поведение людей на дороге столь же сложно, как и построить сам беспилотник. Для создания реалистичных симуляций стэнфордские ученые используют глубокие генеративно-состязательные сети (GAN), обученные на реальных датасетах (например, видеосъемках трафика с дронов над шоссе). Аналогичные нейросети используются для генерации реалистичного шума на камерах и датчиках LiDAR.

В качестве примера оптимизации Корсо разобрал систему Taxinet, предназначенную для автономного руления самолета по взлетно-посадочной полосе с помощью камеры на крыле. Картинка с камеры пережимается в маленькое монохромное разрешение и подается на компактную нейросеть, которая управляет рулем направления. 

Инженеры попытались найти уязвимость, используя концепцию «worst-case» шума в рамках ограниченной сферы (epsilon ball). Оказалось, что если на каждом шаге применять к пикселям максимально возможный единичный шум, уводящий самолет влево, Taxinet все равно справляется и удерживает борт на полосе за счет внутренней робастности. 

Однако, когда к поиску подключили алгоритм MCTS, способный выстраивать хитрые *последовательности* действий, уязвимость была найдена. При уровне искажения пикселей в 3% алгоритм AST сначала долго уводил самолет влево, а когда тот приблизился к краю полосы, резко переключил шум вправо. Самолет развернуло поперек полосы, картинка с камеры вышла далеко за рамки обучающего распределения (out-of-distribution), нейросеть «ослепла», и борт вылетел с полосы.

## 🌪️ Новое слово в поиске багов: Диффуссионное сэмплирование отказов (DiffS)
[[JUMP:52:08]]

Энтони Корсо поделился результатами новейших исследований своего коллеги по лаборатории Харрисона (Harrison), который применил для поиска отказов диффузионные модели. Эти модели, ставшие основой для генераторов изображений вроде Stable Diffusion или Midjourney, великолепно работают с многомерными сложными распределениями данных. Харрисон адаптировал их для роботизированного планирования и поиска багов, создав алгоритм DiffS (Diffusion-based Failure Sampling).

Поскольку реальные отказы происходят редко, обучить диффузионную модель напрямую на примерах аварий невозможно — их слишком мало. Алгоритм DiffS решает эту проблему методом итеративного «бутстрэппинга»:

1.  Запускается серия случайных симуляций, для каждой из которых рассчитывается метрика риска (например, минимальное расстояние сближения самолетов).
2.  Диффузионная модель обучается на полученных парах «параметры возмущения — уровень риска».
3.  Модель генерирует новые возмущения, условно привязанные к более высокому уровню риска.
4.  Эти пограничные сценарии прогоняются через симулятор, порог риска сдвигается выше (в сторону квантилей худших исходов), и модель дообучается на этих экстремальных данных.

Этот цикл повторяется до тех пор, пока скользящий порог риска полностью не совпадет с реальным распределением отказов. 

Корсо продемонстрировал, что DiffS показал невероятную эффективность на классической задаче перевернутого маятника, а также на сложнейшей многомерной модели истребителя F-16. Алгоритм успешно нашел высоковероятные сценарии, при которых истребитель из-за накопленных микро-возмущений задевает крылом землю в конце сложной траектории. Традиционные оптимизаторы пасуют перед такой высокой размерностью, в то время как итеративный дата-центричный подход диффузионных моделей оказался на удивление мощным.

## 🌍 Климатический кризис и подземные тайны: POMDP на службе экологии
[[JUMP:1:01:44]]

Во второй части лекции Энтони Корсо объяснил, почему он принял решение частично сменить вектор своих научных интересов и основать компанию Terra AI. Человечество находится в критической точке климатического кризиса. Текущие политические курсы ведут к опасному потеплению планеты более чем на 4 °C. Чтобы удержать изменения в пределах относительно безопасных 1.5–2 °C, необходим масштабный технологический рывок.

Переход к углеродной нейтральности (Net Zero) требует колоссального объема ресурсов из недр Земли:

* **Критические минералы:** Медь, никель, литий для аккумуляторов и новой электросети. При этом Корсо привел график, доказывающий, что за последние годы объемы инвестиций в геологоразведку растут, а эффективность обнаружения новых месторождений падает, так как все «легкие» запасы на поверхности уже исчерпаны.
* **Возобновляемая энергия:** Глубинная геотермальная энергия, а также подземное производство и хранение водорода.
* **Улавливание и хранение углерода (CCS):** Закачка сжиженного $CO_2$ в глубокие водоносные горизонты (соленые аквиферы) вместо выброса в атмосферу.

Корсо объяснил, что все эти задачи сводятся к принятию сложных решений в условиях экстремальной неопределенности, поскольку человечество не знает точной геологической структуры под землей. Математически эта проблема идеально формулируется как POMDP — частично наблюдаемый марковский процесс принятия решений.

Одной из главных проблем использования ИИ в подземной инженерии является то, что стандартные физические симуляторы миграции газов под землей работают невыносимо медленно — один просчет занимает от 10 до 12 часов. Для работы алгоритмов оптимизации ИИ это неприемлемо. 

Компания Terra AI совершила прорыв, создав «суррогатные модели» на базе глубоких нейросетей. Нейросеть обучается на результатах физического симулятора и имитирует поведение подземного облака $CO_2$. Такая модель работает в тысячи раз быстрее физического движка. Да, она имеет незначительную погрешность, но скорость позволяет ИИ мгновенно просчитывать миллионы вариантов развития событий.

В статье, поданной на публикацию, команда Terra AI доказала, что их ИИ-система управления резервуаром, основанная на POMDP-оптимизации, распределила точки закачки $CO_2$ на временном отрезке в 1000 лет значительно лучше, чем опытные инженеры-нефтяники. В проекте инженеров-людей утечка углерода из заданного пласта составила 16%, в то время как ИИ свел долю утечки практически к нулю.

## 🌋 Риски подземных технологий и будущее безопасности
[[JUMP:1:10:38]]

В завершение лекции Энтони Корсо предупредил, что подземные климатические технологии столь же критичны с точки зрения безопасности, как авиация или беспилотные автомобили. Главными техногенными рисками здесь выступают:

* **Наведенная сейсмичность (Induced Seismicity):** При добыче геотермальной энергии холодная вода закачивается под землю под огромным давлением, что может приводить к реактивации тектонических разломов. Корсо напомнил о разрушительном землетрясении в Южной Корее, причиной которого официально признали местную геотермальную станцию, построенную слишком близко к городу.
* **Смертоносные утечки газов:** Если закачанный $CO_2$ найдет разлом, он может вырваться на поверхность. В истории уже был страшный прецедент: в 1986 году на озере Ниос произошел естественный масштабный выброс геологического углекислого газа. Тяжелое ядовитое облако накрыло местную низину, мгновенно задушив целую деревню и весь скот.

Корсо призвал студентов подумать над тем, как применить методы AST и адаптивного поиска уязвимостей к подземным ИИ-агентам, управляющим экологическими объектами. 

Отвечая на финальный вопрос из зала о колоссальной стоимости расчетов, спикер добавил, что перспективным направлением является перенос обучения (Transfer Learning). Если инженер слегка меняет дизайн системы, ему не нужно заново тратить 10 недель серверного времени на валидацию безопасности — старые профили отказов можно использовать для «горячего старта» (warm-start) обновленного алгоритма тестирования, что экономит миллионы долларов.