Лектор Stanford Online о латентных моделях и вариационных автокодировщиках

Stanford Online 30,7 тыс. 1 ч 20 мин 2 мин 06.05.2024
Главное

Введение в латентные переменные: путь к глубоким генеративным моделям 0:05

В пятой лекции курса Stanford CS236 преподаватель рассматривает переход от авторегрессионных моделей к моделям с латентными (скрытыми) переменными. Главная идея заключается в использовании ненаблюдаемых факторов для описания сложных распределений данных, таких как изображения, что позволяет эффективно кластеризовать данные и выделять ключевые признаки.

🧠 Зачем нужны латентные переменные? 2:20

Авторегрессионные модели (RNN, CNN, трансформеры) эффективно работают с правдоподобием, но сталкиваются с рядом ограничений:

Латентные модели решают эти проблемы, добавляя переменные $z$, которые отражают факторы вариации в данных, такие как возраст, поза или цвет волос на изображениях. По мнению лектора, это делает семейство моделей более гибким и позволяет проводить классификацию на основе признаков, а не «сырых» пикселей.

📊 Простые модели: от смесей Гауссиан к глубоким нейросетям 17:56

В качестве «разогрева» обсуждается модель смеси Гауссиан (GMM) — классическая латентная модель. В GMM переменная $z$ является категориальной и определяет компонент смеси.

При работе с более сложными данными, например, набором изображений MNIST, эксперт отмечает, что использование глубоких нейронных сетей позволяет моделировать параметры распределения ($μ$ и $\sigma$) как функции от $z$. Хотя это делает процесс обучения сложнее (из-за необходимости оценивать правдоподобие данных), это дает преимущество:

📉 Проблема «бесплатного обеда нет»: сложность оценки 41:01

Ключевая трудность заключается в оценке маргинальной вероятности данных $p(x)$ при обучении. Поскольку $z$ не наблюдаемы, необходимо интегрировать по всем возможным значениям $z$:

Для решения этой задачи лектор предлагает использовать методы аппроксимации. Прямое случайное сэмплирование (Uniform Monte Carlo) работает плохо из-за высокой дисперсии. Более эффективный подход — Importance Sampling, где сэмплирование происходит из распределения $q(z)$, которое лучше соответствует данным.

🔍 Оптимизация и доказательство через неравенство Йенсена

Так как нас интересует логарифм вероятности (log-likelihood), возникает разрыв между ожиданием и логарифмом. Лектор поясняет применение неравенства Йенсена, которое позволяет получить нижнюю границу (ELBO — Evidence Lower Bound) для log-marginal probability.

Основные выводы по оптимизации:

💬 Цитаты

«Мы просто надеемся, что, пытаясь моделировать данные с использованием этих латентных переменных, мы обнаружим интересную структуру.»

Лектор Stanford Online 10:10

«Оценка маргинальной вероятности данных p(x) является сложной задачей. Это часть «бесплатного обеда нет».»

Лектор Stanford Online 40:06
👥 Спикер
📖 Термины
Латентные переменные
Скрытые, ненаблюдаемые переменные, которые помогают описать структуру наблюдаемых данных.
ELBO
Нижняя граница вероятности (Evidence Lower Bound), используемая для аппроксимации сложного распределения данных.
Importance Sampling
Метод численного интегрирования, при котором сэмплирование идет из специально подобранного распределения для снижения дисперсии.
Неравенство Йенсена
Математическое свойство вогнутых функций, позволяющее менять местами операторы логарифма и ожидания.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Latent Variable Models Variational Autoencoder ELBO Importance Sampling