GAN: от мини-макс игр к расстоянию Вассерштейна

Stanford Online 14,8 тыс. 1 ч 27 мин 2 мин 06.05.2024
Главное

🔬 GANs: От мини-макс игр к Wasserstein-расстояниям 0:04

Генеративно-состязательные сети (GAN) представляют собой мощный класс моделей, позволяющих проводить обучение без явной оценки функции правдоподобия. Основная концепция базируется на состязательной игре двух нейронных сетей: генератора (создающего синтетические данные) и дискриминатора (пытающегося отличить их от реальных). В отличие от классических методов, полагающихся на дивергенцию Кульбака-Лейблера (KL), подход GAN позволяет использовать широкий спектр метрик для оценки того, насколько распределение модели соответствует распределению реальных данных.

📉 Оптимизация через f-дивергенции 7:19

Идея мини-макс игры может быть расширена за пределы стандартной дивергенции Дженсена-Шеннона. Лектор поясняет, что GAN способны оптимизировать целый класс метрик, называемых f-дивергенциями.

При обучении возникает проблема: классическая формула требует знания плотности данных, что в реальности недоступно. Решение заключается в использовании выпуклого сопряжения (conjugate function) по Фенхелю, что позволяет переписать целевую функцию так, чтобы она зависела только от возможности производить выборки (семплы) из распределений. В результате дискриминатор выступает в роли оценщика этого сопряженного выражения, эффективно «вычисляя» отношения плотностей в процессе состязательного обучения.

🌍 Wasserstein GAN: решение проблемы отсутствия градиентов 48:57

Традиционные f-дивергенции имеют существенный недостаток: если распределения модели и данных не пересекаются (disjoint support), они перестают давать полезный сигнал для обучения (градиенты исчезают).

Для решения этой задачи предлагается расстояние Вассерштейна (earth mover distance) — мера «усилий», необходимых для трансформации одного распределения в другое путем перемещения «массы».

🧠 Извлечение скрытых представлений: BiGAN 1:17:15

Поскольку генератор в обычном GAN не является обратимым, получение скрытых переменных ($z$) по данным ($x$) затруднено. Для этого вводится архитектура BiGAN (Bidirectional GAN).

💬 Цитаты

«Если дискриминатору очень трудно отличить ваши образцы от реальных, есть хороший шанс, что ваши образцы действительно хороши.»

Преподаватель Stanford 01:53

«Расстояние Вассерштейна... не заботится о том, являются ли опоры p и q непересекающимися или нет.»

Преподаватель Stanford 53:35
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
f-дивергенция
Функция, измеряющая «расстояние» между двумя распределениями вероятностей через выпуклую функцию отношений их плотностей.
Расстояние Вассерштейна
Метрика, представляющая минимальную стоимость перемещения вероятностной массы из одного распределения в другое (Earth Mover Distance).
Выпуклое сопряжение (Fenchel conjugate)
Математическая операция, позволяющая переформулировать оптимизационные задачи через двойственные переменные.
Lipschitz constant (Липшицева константа)
Параметр, ограничивающий скорость изменения функции; используется в W-GAN для обеспечения стабильности дискриминатора.
BiGAN
Вариант GAN, включающий кодировщик для инвертирования генеративного процесса и получения латентных признаков.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Generative Adversarial Networks Wasserstein distance f-divergence BiGAN