Stanford CS230: защита ИИ от атак и основы генеративного моделирования

Stanford Online 49 тыс. 1 ч 47 мин 3 мин 21.10.2025
Главное

🛡️ Обеспечение устойчивости ИИ и генеративные модели: лекция CS230 0:05

Лекция 4 курса Stanford CS230, прочитанная осенью 2025 года в рамках программы Stanford Online, посвящена двум фундаментальным направлениям современного машинного обучения: вопросам защиты систем от атак (adversarial robustness) и методам генерации контента. В ходе занятия были подробно разобраны механизмы уязвимости нейросетей, способы их эксплуатации, методы защиты, а также принципы работы GAN и диффузионных моделей.


🤖 Угрозы безопасности и концепция состязательных атак 0:44

Активное внедрение ИИ-моделей в повседневную жизнь делает их уязвимыми для злонамеренных манипуляций. Исследователи выделяют три основные волны атак за последнее десятилетие.

Виды атак на ИИ

Механика состязательных примеров 8:24

Для генерации состязательного изображения, классифицируемого моделью как «игуана», используется оптимизация входных пикселей.

  1. Цель: Найти такой вход $X$, чтобы предсказание $\hat{Y}(X)$ было максимально близко к целевому классу «игуана».
  2. Минимизация потерь: Используется функция потерь, например, L2-расстояние между выходом модели и целевым вектором.
  3. Градиентный спуск: В отличие от обычного обучения, где веса модели фиксированы, здесь оптимизируются сами пиксели входного изображения через вычисление градиентов функции потерь по отношению к ним.

Специалисты отмечают, что из-за высокой размерности пространства изображений даже небольшие, но «умные» искажения всех пикселей могут приводить к катастрофическим ошибкам модели. Метод Fast Gradient Sign Method (FGSM), разработанный Иэном Гудфеллоу, позволяет выполнять такое «одношаговое» искажение.

Стратегии защиты 34:04


🎨 Генеративное моделирование: GAN и диффузия 49:40

Генеративные модели стремятся не просто классифицировать данные, а выучить распределение вероятностей обучающей выборки, что позволяет им создавать новый контент.

Генеративные состязательные сети (GAN) 56:13

Архитектура GAN основана на игре двух нейросетей:

  1. Генератор (G): Пытается создать реалистичное изображение из случайного шума $Z$.
  2. Дискриминатор (D): Бинарный классификатор, пытающийся отличить реальное изображение от сгенерированного.

В процессе «minimax-игры» генератор учится «обманывать» дискриминатор. Однако обучение GAN нестабильно. Главная проблема — «схлопывание моды» (mode collapse), когда генератор находит способ «обмануть» дискриминатор, создавая лишь узкий подмножество данных, вместо того чтобы охватить всё разнообразие реального распределения. Для решения проблем обучения применяются инженерные хитрости, например, использование «несатурирующей» функции потерь для генератора.

Диффузионные модели

Диффузионные модели на сегодняшний день считаются более стабильными и предпочтительными для генерации изображений. Их принцип работы строится на процессе «шумоподавления» (denoising).

  1. Прямой процесс: К изображению постепенно добавляется гауссов шум, пока оно не превращается в чистое случайное распределение.
  2. Обратный процесс: Модель обучается предсказывать и удалять добавленный шум, восстанавливая исходное изображение.

Главное преимущество диффузии перед GAN — способность моделировать полное распределение данных без «схлопывания моды», что обеспечивает большее разнообразие результатов.

Латентная диффузия и работа с видео

Для снижения вычислительной сложности современные системы (например, те, что стоят за Sora или моделями от Midjourney) используют латентную диффузию. Обучение проходит не в исходном пространстве пикселей, а в сжатом латентном пространстве, что радикально ускоряет вычисления.

При генерации видео добавляется временная размерность (temporal dimension). Модель должна обеспечивать консистентность объектов между кадрами. Sora и подобные системы обрабатывают видео как набор «кубов» (токенов), учитывая как пространственные, так и временные связи.


💬 Цитаты

«Для каждой новой защиты есть новая атака, и для каждой новой атаки — новая защита.»

«GAN обучается «жульничать», фокусируясь на узком наборе выходов, вместо изучения всего распределения данных.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Mode collapse
Проблема GAN, когда генератор перестает выдавать разнообразные результаты, ограничиваясь узким набором образов.
Denoising
Процесс удаления шума из изображения, лежащий в основе работы диффузионных моделей.
Red teaming
Метод тестирования безопасности системы путем имитации атак со стороны злоумышленников.
📊 Цифры
🗓 Хронология
  1. 2013 Кристиан Сегеди публикует работу об уязвимости нейросетей к состязательным атакам.
  2. 2014–2018 Период, когда большинство атак на ИИ основывались на манипуляции прямыми входными данными.
  3. 2020 Выход фундаментальной работы Ho et al. по диффузионным моделям.
  4. 2021 Публикация работы Dhariwal и Nichol, ставящей под вопрос доминирование GAN.
⚖️ Другая сторона
Искусственный интеллект Adversarial Robustness Generative Models GAN Diffusion Models Prompt Injection