Stanford CS230: защита ИИ от атак и основы генеративного моделирования

🛡️ Обеспечение устойчивости ИИ и генеративные модели: лекция CS230 0:05

Лекция 4 курса Stanford CS230, прочитанная осенью 2025 года в рамках программы Stanford Online, посвящена двум фундаментальным направлениям современного машинного обучения: вопросам защиты систем от атак (adversarial robustness) и методам генерации контента. В ходе занятия были подробно разобраны механизмы уязвимости нейросетей, способы их эксплуатации, методы защиты, а также принципы работы GAN и диффузионных моделей.

🤖 Угрозы безопасности и концепция состязательных атак 0:44

Активное внедрение ИИ-моделей в повседневную жизнь делает их уязвимыми для злонамеренных манипуляций. Исследователи выделяют три основные волны атак за последнее десятилетие.

Виды атак на ИИ

Состязательные примеры (Adversarial Examples): Незначительные, зачастую незаметные для человека искажения входных данных (например, пикселей изображения), которые приводят к ошибочной классификации модели. Метод, предложенный Кристианом Сегеди в 2013 году, демонстрирует, что даже малые возмущения могут полностью изменить результат работы компьютерного зрения.
Отравление данных (Data Poisoning / Backdoor Attacks): Атакующий внедряет в обучающую выборку «триггеры» (например, специфические пиксели), связывая их с нужным ему неверным результатом. Когда модель, обученная на этих данных, попадает в продакшн, активация триггера позволяет обойти логику её работы.
Инъекции промптов (Prompt Injections): Манипуляция LLM через ввод инструкций, обходящих первоначальные правила безопасности.

Механика состязательных примеров 8:24

Для генерации состязательного изображения, классифицируемого моделью как «игуана», используется оптимизация входных пикселей.

Цель: Найти такой вход $X$, чтобы предсказание $\hat{Y}(X)$ было максимально близко к целевому классу «игуана».
Минимизация потерь: Используется функция потерь, например, L2-расстояние между выходом модели и целевым вектором.
Градиентный спуск: В отличие от обычного обучения, где веса модели фиксированы, здесь оптимизируются сами пиксели входного изображения через вычисление градиентов функции потерь по отношению к ним.

Специалисты отмечают, что из-за высокой размерности пространства изображений даже небольшие, но «умные» искажения всех пикселей могут приводить к катастрофическим ошибкам модели. Метод Fast Gradient Sign Method (FGSM), разработанный Иэном Гудфеллоу, позволяет выполнять такое «одношаговое» искажение.

Стратегии защиты 34:04

Очистка данных и фильтрация: Санитаризация входных данных для выявления аномалий перед подачей в модель.
Состязательное обучение (Adversarial Training): Добавление искажённых примеров в обучающую выборку с правильными метками, чтобы модель училась игнорировать помехи.
Red Teaming: Привлечение команд для поиска уязвимостей в модели перед релизом.
Constitutional AI: Подход (используемый, в частности, Anthropic), предполагающий настройку модели согласно набору этических правил через RLHF (обучение с подкреплением на основе отзывов людей).

🎨 Генеративное моделирование: GAN и диффузия 49:40

Генеративные модели стремятся не просто классифицировать данные, а выучить распределение вероятностей обучающей выборки, что позволяет им создавать новый контент.

Генеративные состязательные сети (GAN) 56:13

Архитектура GAN основана на игре двух нейросетей:

Генератор (G): Пытается создать реалистичное изображение из случайного шума $Z$.
Дискриминатор (D): Бинарный классификатор, пытающийся отличить реальное изображение от сгенерированного.

В процессе «minimax-игры» генератор учится «обманывать» дискриминатор. Однако обучение GAN нестабильно. Главная проблема — «схлопывание моды» (mode collapse), когда генератор находит способ «обмануть» дискриминатор, создавая лишь узкий подмножество данных, вместо того чтобы охватить всё разнообразие реального распределения. Для решения проблем обучения применяются инженерные хитрости, например, использование «несатурирующей» функции потерь для генератора.

Диффузионные модели

Диффузионные модели на сегодняшний день считаются более стабильными и предпочтительными для генерации изображений. Их принцип работы строится на процессе «шумоподавления» (denoising).

Прямой процесс: К изображению постепенно добавляется гауссов шум, пока оно не превращается в чистое случайное распределение.
Обратный процесс: Модель обучается предсказывать и удалять добавленный шум, восстанавливая исходное изображение.

Главное преимущество диффузии перед GAN — способность моделировать полное распределение данных без «схлопывания моды», что обеспечивает большее разнообразие результатов.

Латентная диффузия и работа с видео

Для снижения вычислительной сложности современные системы (например, те, что стоят за Sora или моделями от Midjourney) используют латентную диффузию. Обучение проходит не в исходном пространстве пикселей, а в сжатом латентном пространстве, что радикально ускоряет вычисления.

При генерации видео добавляется временная размерность (temporal dimension). Модель должна обеспечивать консистентность объектов между кадрами. Sora и подобные системы обрабатывают видео как набор «кубов» (токенов), учитывая как пространственные, так и временные связи.