Сомил Бансал: «Безопасность AI — это непрерывный процесс стресс-тестирования»

Stanford Online 1,7 тыс. 1 ч 2 мин 3 мин 07.04.2025
Главное

Стресс-тестирование автономных систем: как обеспечить безопасность в мире нейросетей 0:05

В эпоху повсеместного внедрения машинного обучения в критически важные инфраструктуры — от беспилотных автомобилей до авиации — вопрос обеспечения безопасности становится фундаментальным. Приглашенный лектор Стэнфордского университета Сомил Бансал, возглавляющий лабораторию Safe and Intelligent Autonomy Lab, утверждает, что безопасность AI-систем должна рассматриваться не как разовая проверка, а как непрерывный цикл: от обучения и адаптации во время работы до постоянного стресс-тестирования. Основная проблема современной автономности заключается в разрыве между высокой эффективностью нейросетей в сложных условиях и их непредсказуемостью при возникновении критических ошибок.

🛡 Принципы безопасной автономности 2:56

По мнению Бансала, методология обеспечения безопасности должна интегрироваться на всех этапах жизненного цикла системы. Эксперт выделяет три ключевых компонента:

Центральной проблемой для исследователя остается стресс-тестирование контроллеров, работающих на основе визуальных данных (vision-based controllers). Эти системы крайне сложно анализировать классическими методами теории управления из-за высокой размерности входных данных, таких как RGB-изображения.

🔍 Поиск сбоев через теорию достижимости 6:28

Для обнаружения «критических точек» сбоя Бансал предлагает переформулировать задачу как проблему поиска достижимости (reachability problem). Объединяя визуальный сенсор и контроллер в единую политику, исследователь вычисляет так называемую «обратно достижимую трубку» (backward reachable tube, BRT) — множество состояний, при которых система неизбежно придет к сбою, несмотря на все усилия управления.

Инструментарий и методы:

  1. Hamilton-Jacobi Reachability: Метод, позволяющий математически вычислить множество опасных состояний, решая уравнения в частных производных, аналогичные Bellman-уравнениям в динамическом программировании.
  2. Функция стоимости: Использование знаковой функции расстояния до области сбоя, где отрицательное значение сигнализирует о попадании в «опасную зону».
  3. Анализ управления: Определение того, насколько эффективно система может сопротивляться гравитации или внешним возмущениям, находясь вблизи границы безопасности.

✈️ Кейсы: разметка на взлетной полосе и «галлюцинации» CNN 18:52

В ходе лекции Бансал представил два показательных примера, демонстрирующих работу фреймворка. В случае с автономным самолетом при рулении на взлетно-посадочной полосе нейросеть ошибочно принимала дорожную разметку за центральную линию, что приводило к сходу с курса.

Ключевые выводы из экспериментов:

🛠 Улучшение систем: детекторы аномалий и переобучение 29:15

Найденные в ходе стресс-тестирования данные позволяют реализовать два сценария защиты:

  1. Runtime Anomaly Detector: Обучение бинарного классификатора, который при получении изображения «предсказывает» сбой и переключает управление на более медленный или консервативный fallback-контроллер.
  2. Инкрементальное обучение: Использование сбойных данных для дообучения контроллера. Однако лектор предостерегает: в современных нейросетях отсутствует гарантия монотонного улучшения. Иногда добавление новых данных может ухудшить поведение системы в других ситуациях, что делает этот процесс «минным полем» для инженеров.

⚖️ Модульный подход против End-to-End 38:52

Дискуссия с аудиторией затронула актуальный конфликт между end-to-end моделями (где вся система — это одна большая нейросеть) и модульными архитектурами. Бансал полагает, что End-to-End системы сложнее защищать перед регуляторами, так как в случае аварии невозможно четко определить, какой именно компонент (восприятие, предсказание или планирование) дал сбой. Для этого лаборатория Бансала разрабатывает систему SPARQ — нейросеть, оценивающую безопасность текущего плана движения при заданном уровне неопределенности восприятия.

В завершение лектор подчеркнул, что вопрос generalization (обобщения) на новые типы сред остается открытым. Хотя генеративные модели (NeRF, Gaussian Splatting) открывают новые горизонты для создания виртуальных копий сред, стресс-тестирование остается ограниченным тем распределением данных, которое мы можем предвидеть и симулировать.

💬 Цитаты

«Безопасность AI-систем должна рассматриваться не как разовая проверка, а как непрерывный процесс.»

Сомил Бансал 03:10

«Не все ошибки восприятия равны. Некоторые learning-ошибки могут значить для безопасности системы гораздо больше.»

Сомил Бансал 21:59

«В современных нейросетях отсутствует гарантия монотонного улучшения при добавлении новых данных.»

Сомил Бансал 36:24
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Backward Reachable Tube (BRT)
Множество начальных состояний системы, которые неизбежно приведут её к заданному состоянию сбоя, даже при идеальном контроле.
Hamilton-Jacobi Reachability
Математический метод анализа безопасности систем, основанный на решении дифференциальных уравнений в частных производных.
SPARQ
Нейросетевая модель, оценивающая безопасность плана движения автономного автомобиля на основе данных о неопределенности восприятия.
Vision-based controller
Система управления роботом или автомобилем, которая принимает решения на основе визуальных данных (RGB-изображения, point clouds).
Out-of-distribution (OOD)
Ситуации, в которых система сталкивается с входными данными, которые существенно отличаются от тех, на которых она обучалась.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Somil Bansal Stanford University Autonomous Systems Machine Learning Safety Reachability Analysis