Как работают скоринговые и диффузионные модели: разбор Стэнфорда

Stanford Online 19 тыс. 1 ч 21 мин 3 мин 06.05.2024
Главное

Лекция Стэнфордского университета по генеративным моделям: Скоринговые модели и диффузия

0:05

Лекция 13 курса CS236 «Глубинные генеративные модели» посвящена score-based моделям (скоринговым моделям) и диффузионным процессам. Ведущий курса объясняет, почему этот класс моделей стал современным стандартом (SOTA) для генерации изображений, видео и аудио, а также разбирает фундаментальные математические подходы к их обучению и проблемам, с которыми сталкиваются исследователи.

🧬 Переход от плотностей к скоринговым функциям 3:26

В классических генеративных моделях основной задачей является моделирование вероятностной плотности $p(x)$ или функции массы вероятности. Основная сложность здесь заключается в необходимости нормализации функции, чтобы интеграл по всему пространству был равен 1.

Score-based модели предлагают альтернативный подход: моделировать не саму плотность, а её градиент — скоринговую функцию (score function), определяемую как $\nabla_x \log p(x)$.

📊 Математика обучения: Fisher Divergence 8:27

Для обучения скоринговых моделей используется минимизация дивергенции Фишера (Fisher divergence) — разности между истинным векторным полем градиентов данных и векторным полем, предсказываемым моделью.

Главная техническая проблема при попытке оптимизации такой модели — наличие следа Якобиана (trace of the Jacobian) в целевой функции. Прямое вычисление производных в больших размерностях оказывается крайне затратным, так как требует количества операций обратного распространения ошибки, масштабирующегося линейно с размерностью входных данных.

🛠 Масштабируемые методы: Denoising Score Matching 31:52

Для обхода вычислительных сложностей предлагаются методы, которые позволяют обучать модели в условиях высокой размерности.

Denoising Score Matching (Denoising-скоринг)

Основная идея — оценивать градиент не самих данных, а данных, возмущенных шумом.

  1. Процесс: К данным добавляется гауссовский шум. Оказывается, что задача оценки скоринга для такой «размытой» плотности математически эквивалентна классической задаче шумоподавления (denoising).
  2. Преимущество: Этот подход избавляет от необходимости вычислять след Якобиана, превращая обучение в задачу оптимизации L2-потери между предсказанием сети и фактически добавленным шумом.
  3. Интерпретация: Модель обучается «угадывать» шум, который нужно вычесть из картинки, чтобы вернуть её в состояние чистых данных.

Sliced Score Matching (Слайсинговый скоринг)

Альтернативный метод для эффективного обучения без шума заключается в использовании случайных проекций.

🧪 Генерация образцов: Langevin Dynamics 1:09:54

После того как модель обучена, возникает вопрос: как генерировать данные, если у нас нет явного правдоподобия?

Лектор объясняет, что можно использовать процедуру Ланжевена (Langevin MCMC). Идея заключается в следующем:

  1. Инициализировать частицы случайным шумом.
  2. Итеративно обновлять частицы, следуя направлению градиента скоринговой функции.
  3. Добавлять небольшое количество шума на каждом шаге (для перемешивания).

Однако, по словам автора, этот базовый подход сталкивается с проблемами:

Лектор заключает, что именно эти трудности с «застреванием» Ланжевена в локальных модах привели к созданию диффузионных моделей (diffusion models), которые в следующей лекции будут представлены как решение для корректного оценивания скоринга во всем пространстве.

💬 Цитаты

«Мы свели проблему генерации изображений к проблеме шумоподавления, что, вероятно, является одной из самых простых задач, которые можно придумать.»

Преподаватель Стэнфорда 52:54

«Если вы продолжаете убирать шум, вы по сути генерируете образец.»

Преподаватель Стэнфорда 58:50
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Score function
Градиент логарифма плотности данных по отношению к входным данным.
Fisher divergence
Функция потерь, измеряющая разницу между векторным полем скоринга модели и истинного распределения.
Langevin dynamics
Метод MCMC, использующий градиент логарифмической плотности для генерации выборок из распределения.
Trace of the Jacobian
Сумма диагональных элементов матрицы Якобиана, возникающая в задаче скоринга.
Denoising score matching
Метод обучения моделей, где градиент оценивается на зашумленных данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект score-based models diffusion models Langevin dynamics Fisher divergence CS236