Сомил Бансал: «Безопасность AI — это непрерывный процесс стресс-тестирования»

Стресс-тестирование автономных систем: как обеспечить безопасность в мире нейросетей 0:05

В эпоху повсеместного внедрения машинного обучения в критически важные инфраструктуры — от беспилотных автомобилей до авиации — вопрос обеспечения безопасности становится фундаментальным. Приглашенный лектор Стэнфордского университета Сомил Бансал, возглавляющий лабораторию Safe and Intelligent Autonomy Lab, утверждает, что безопасность AI-систем должна рассматриваться не как разовая проверка, а как непрерывный цикл: от обучения и адаптации во время работы до постоянного стресс-тестирования. Основная проблема современной автономности заключается в разрыве между высокой эффективностью нейросетей в сложных условиях и их непредсказуемостью при возникновении критических ошибок.

🛡 Принципы безопасной автономности 2:56

По мнению Бансала, методология обеспечения безопасности должна интегрироваться на всех этапах жизненного цикла системы. Эксперт выделяет три ключевых компонента:

Обучение: Программное внедрение требований безопасности непосредственно в фазу обучения данных для создания «безопасно-ориентированных» политик (safety-aware AI).
Адаптация: Механизмы корректировки поведения системы при выходе за границы обучающего распределения (out-of-distribution).
Стресс-тестирование: Итеративный процесс поиска критических сбоев, которые затем используются для улучшения дизайна системы.

Центральной проблемой для исследователя остается стресс-тестирование контроллеров, работающих на основе визуальных данных (vision-based controllers). Эти системы крайне сложно анализировать классическими методами теории управления из-за высокой размерности входных данных, таких как RGB-изображения.

🔍 Поиск сбоев через теорию достижимости 6:28

Для обнаружения «критических точек» сбоя Бансал предлагает переформулировать задачу как проблему поиска достижимости (reachability problem). Объединяя визуальный сенсор и контроллер в единую политику, исследователь вычисляет так называемую «обратно достижимую трубку» (backward reachable tube, BRT) — множество состояний, при которых система неизбежно придет к сбою, несмотря на все усилия управления.

Инструментарий и методы:

Hamilton-Jacobi Reachability: Метод, позволяющий математически вычислить множество опасных состояний, решая уравнения в частных производных, аналогичные Bellman-уравнениям в динамическом программировании.
Функция стоимости: Использование знаковой функции расстояния до области сбоя, где отрицательное значение сигнализирует о попадании в «опасную зону».
Анализ управления: Определение того, насколько эффективно система может сопротивляться гравитации или внешним возмущениям, находясь вблизи границы безопасности.

✈️ Кейсы: разметка на взлетной полосе и «галлюцинации» CNN 18:52

В ходе лекции Бансал представил два показательных примера, демонстрирующих работу фреймворка. В случае с автономным самолетом при рулении на взлетно-посадочной полосе нейросеть ошибочно принимала дорожную разметку за центральную линию, что приводило к сходу с курса.

Ключевые выводы из экспериментов:

Неравноценность ошибок: Не все ошибки восприятия ведут к системному сбою; некоторые сбои Vision-модели эффективно компенсируются планировщиком, в то время как другие — критически опасны.
Ложные корреляции: В экспериментах с внутрипомещенными роботами нейросеть выучила, что «светлый пол» означает проходимость. При смене освещения или цветов стен в тестовой среде (темный пол, светлые стены) робот начинал пытаться «проехать сквозь стену».
Влияние среды: Интересно, что при ночном освещении некоторые состояния, которые были «опасными» днем из-за видимости разметки, становились безопасными, так как нейросеть переставала «видеть» сбивающие её с толку детали.

🛠 Улучшение систем: детекторы аномалий и переобучение 29:15

Найденные в ходе стресс-тестирования данные позволяют реализовать два сценария защиты:

Runtime Anomaly Detector: Обучение бинарного классификатора, который при получении изображения «предсказывает» сбой и переключает управление на более медленный или консервативный fallback-контроллер.
Инкрементальное обучение: Использование сбойных данных для дообучения контроллера. Однако лектор предостерегает: в современных нейросетях отсутствует гарантия монотонного улучшения. Иногда добавление новых данных может ухудшить поведение системы в других ситуациях, что делает этот процесс «минным полем» для инженеров.

⚖️ Модульный подход против End-to-End 38:52

Дискуссия с аудиторией затронула актуальный конфликт между end-to-end моделями (где вся система — это одна большая нейросеть) и модульными архитектурами. Бансал полагает, что End-to-End системы сложнее защищать перед регуляторами, так как в случае аварии невозможно четко определить, какой именно компонент (восприятие, предсказание или планирование) дал сбой. Для этого лаборатория Бансала разрабатывает систему SPARQ — нейросеть, оценивающую безопасность текущего плана движения при заданном уровне неопределенности восприятия.

В завершение лектор подчеркнул, что вопрос generalization (обобщения) на новые типы сред остается открытым. Хотя генеративные модели (NeRF, Gaussian Splatting) открывают новые горизонты для создания виртуальных копий сред, стресс-тестирование остается ограниченным тем распределением данных, которое мы можем предвидеть и симулировать.