# Сомил Бансал: «Безопасность AI — это непрерывный процесс стресс-тестирования»

Источник: https://www.youtube.com/watch?v=OU67A1tyfmc
Канал: Stanford Online
Опубликовано: 07.04.2025

---

## Стресс-тестирование автономных систем: как обеспечить безопасность в мире нейросетей
[[JUMP:0:05]]

В эпоху повсеместного внедрения машинного обучения в критически важные инфраструктуры — от беспилотных автомобилей до авиации — вопрос обеспечения безопасности становится фундаментальным. Приглашенный лектор Стэнфордского университета Сомил Бансал, возглавляющий лабораторию Safe and Intelligent Autonomy Lab, утверждает, что безопасность AI-систем должна рассматриваться не как разовая проверка, а как непрерывный цикл: от обучения и адаптации во время работы до постоянного стресс-тестирования. Основная проблема современной автономности заключается в разрыве между высокой эффективностью нейросетей в сложных условиях и их непредсказуемостью при возникновении критических ошибок.

## 🛡 Принципы безопасной автономности
[[JUMP:2:56]]

По мнению Бансала, методология обеспечения безопасности должна интегрироваться на всех этапах жизненного цикла системы. Эксперт выделяет три ключевых компонента:

*   **Обучение:** Программное внедрение требований безопасности непосредственно в фазу обучения данных для создания «безопасно-ориентированных» политик (safety-aware AI).
*   **Адаптация:** Механизмы корректировки поведения системы при выходе за границы обучающего распределения (out-of-distribution).
*   **Стресс-тестирование:** Итеративный процесс поиска критических сбоев, которые затем используются для улучшения дизайна системы.

Центральной проблемой для исследователя остается стресс-тестирование контроллеров, работающих на основе визуальных данных (vision-based controllers). Эти системы крайне сложно анализировать классическими методами теории управления из-за высокой размерности входных данных, таких как RGB-изображения.

## 🔍 Поиск сбоев через теорию достижимости
[[JUMP:6:28]]

Для обнаружения «критических точек» сбоя Бансал предлагает переформулировать задачу как проблему поиска достижимости (reachability problem). Объединяя визуальный сенсор и контроллер в единую политику, исследователь вычисляет так называемую «обратно достижимую трубку» (backward reachable tube, BRT) — множество состояний, при которых система неизбежно придет к сбою, несмотря на все усилия управления.

### Инструментарий и методы:

1.  **Hamilton-Jacobi Reachability:** Метод, позволяющий математически вычислить множество опасных состояний, решая уравнения в частных производных, аналогичные Bellman-уравнениям в динамическом программировании.
2.  **Функция стоимости:** Использование знаковой функции расстояния до области сбоя, где отрицательное значение сигнализирует о попадании в «опасную зону».
3.  **Анализ управления:** Определение того, насколько эффективно система может сопротивляться гравитации или внешним возмущениям, находясь вблизи границы безопасности.

## ✈️ Кейсы: разметка на взлетной полосе и «галлюцинации» CNN
[[JUMP:18:52]]

В ходе лекции Бансал представил два показательных примера, демонстрирующих работу фреймворка. В случае с автономным самолетом при рулении на взлетно-посадочной полосе нейросеть ошибочно принимала дорожную разметку за центральную линию, что приводило к сходу с курса.

### Ключевые выводы из экспериментов:

*   **Неравноценность ошибок:** Не все ошибки восприятия ведут к системному сбою; некоторые сбои Vision-модели эффективно компенсируются планировщиком, в то время как другие — критически опасны.
*   **Ложные корреляции:** В экспериментах с внутрипомещенными роботами нейросеть выучила, что «светлый пол» означает проходимость. При смене освещения или цветов стен в тестовой среде (темный пол, светлые стены) робот начинал пытаться «проехать сквозь стену».
*   **Влияние среды:** Интересно, что при ночном освещении некоторые состояния, которые были «опасными» днем из-за видимости разметки, становились безопасными, так как нейросеть переставала «видеть» сбивающие её с толку детали.

## 🛠 Улучшение систем: детекторы аномалий и переобучение
[[JUMP:29:15]]

Найденные в ходе стресс-тестирования данные позволяют реализовать два сценария защиты:

1.  **Runtime Anomaly Detector:** Обучение бинарного классификатора, который при получении изображения «предсказывает» сбой и переключает управление на более медленный или консервативный fallback-контроллер.
2.  **Инкрементальное обучение:** Использование сбойных данных для дообучения контроллера. Однако лектор предостерегает: в современных нейросетях отсутствует гарантия монотонного улучшения. Иногда добавление новых данных может ухудшить поведение системы в других ситуациях, что делает этот процесс «минным полем» для инженеров.

## ⚖️ Модульный подход против End-to-End
[[JUMP:38:52]]

Дискуссия с аудиторией затронула актуальный конфликт между end-to-end моделями (где вся система — это одна большая нейросеть) и модульными архитектурами. Бансал полагает, что End-to-End системы сложнее защищать перед регуляторами, так как в случае аварии невозможно четко определить, какой именно компонент (восприятие, предсказание или планирование) дал сбой. Для этого лаборатория Бансала разрабатывает систему **SPARQ** — нейросеть, оценивающую безопасность текущего плана движения при заданном уровне неопределенности восприятия.

В завершение лектор подчеркнул, что вопрос generalization (обобщения) на новые типы сред остается открытым. Хотя генеративные модели (NeRF, Gaussian Splatting) открывают новые горизонты для создания виртуальных копий сред, стресс-тестирование остается ограниченным тем распределением данных, которое мы можем предвидеть и симулировать.