Филипп Изола о VAE: «Математика, которая объясняет мир»

MIT OpenCourseWare 2,7 тыс. 1 ч 20 мин 3 мин 11.02.2026
Главное

Генеративные модели: Интеграция обучения представлениям и моделирования данных 0:12

Современные подходы к машинному обучению всё чаще связывают две фундаментальные задачи: обучение представлениям (mapping data to representations) и генеративное моделирование (mapping representations to data). По мнению Филиппа Изолы, преподавателя MIT, эти процессы являются своего рода «стохастическими инверсиями» друг друга, и вариационные автокодировщики (VAE) представляют собой инструмент, объединяющий оба подхода в рамках одной архитектуры.

🧠 Анатомия вариационного автокодировщика (VAE) 7:34

В основе VAE лежит простая, но фундаментальная идея: превратить латентное пространство (пространство скрытых переменных $z$) в понятное и структурированное распределение — обычно в Гауссово.

Основная сложность обычного автокодировщика заключается в отсутствии контроля над тем, какую форму принимают латентные представления. Если просто обучить модель восстанавливать данные, латентное пространство может оказаться хаотичным, с «дырами», из которых невозможно сэмплировать новые данные. VAE решает эту проблему, принудительно направляя энкодер к созданию латентного пространства, которое аппроксимирует Гауссово распределение.

📊 Моделирование данных: бесконечная смесь Гауссианов 9:39

Математически VAE можно интерпретировать как подгонку бесконечной смеси Гауссианов к распределению данных. Поскольку мы не можем явно задать бесконечное количество параметров для бесконечного числа Гауссианов, используется «трюк»: нейронная сеть $g$ (декодировщик) принимает на вход точку из латентного пространства и возвращает параметры Гауссиана (среднее и дисперсию) для этой конкретной области.

Таким образом, генерация нового изображения происходит в два этапа:

  1. Сэмплирование вектора $z$ из простого априорного распределения (например, нормального).
  2. Прогон $z$ через декодировщик для получения параметров распределения, из которого и извлекается итоговый сэмпл $x$.

📉 Решение проблемы вычислимости: ELBO и три трюка 28:28

Прямая оптимизация вероятности данных (marginal likelihood) требует вычисления сложного интеграла, что является «невычислимой» задачей. Для обхода этого Изола выделяет три ключевых приема:

  1. Аппроксимация Монте-Карло: Замена сложного интеграла усреднением по конечному набору сэмплов из априорного распределения.
  2. Важное сэмплирование (Importance Sampling): Использование вместо случайного сэмплирования выборки из «умного» распределения, которое ставит больший вес на те области $z$, что дают высокую вероятность для $x$.
  3. Оптимизация параметров с помощью нейросети: Обучение отдельной нейросети-энкодера ($q$), которая предсказывает оптимальное распределение $z$ для заданного $x$.

Итоговая цель обучения — максимизация ELBO (Evidence Lower Bound, «нижняя граница свидетельств»). Этот показатель состоит из двух слагаемых:

Фундаментальное «натяжение» в VAE возникает именно здесь: энкодер пытается сжать все представления к «нулю» (к центру Гауссиана), но необходимость сохранить информацию для точной реконструкции данных сопротивляется этому сжатию, заставляя латентное пространство эффективно заполнять пространство вероятностей.

🌌 Представления и интерпретируемость 1:12:22

Важный аспект VAE — способность к дизентанглменту (разъединению факторов вариации). В ходе экспериментов выяснилось, что отдельные измерения в латентном пространстве часто соответствуют конкретным визуальным атрибутам (например, цвет травы или кривизна реки).

Однако Изола предупреждает: эти «факторы» не всегда совпадают с истинными причинно-следственными механизмами, заложенными в данных. Часто модель создает абстрактные, интуитивно понятные концепции, которые позволяют эффективно описывать мир, даже если они не являются «физически верными» в строгом смысле. В конечном итоге, все генеративные модели — VAE, GAN, диффузионные модели и авторегрессионные системы — решают задачу сжатия и объяснения структуры мира с разными компромиссами между точностью аппроксимации и вычислительной эффективностью.

💬 Цитаты

«Если вы можете решить проблему генеративного моделирования, это поможет вам решить проблему обучения представлениям, и наоборот.»

Филипп Изола 0:24

«Вариационные автокодировщики — это вершина генеративного моделирования и обучения представлениям.»

Филипп Изола 9:12
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VAE (Variational Autoencoder)
Тип генеративной модели, использующей вероятностный подход для кодирования данных в структурированное латентное пространство.
Латентное пространство
Многомерное пространство скрытых переменных, описывающее абстрактные признаки данных.
ELBO
Нижняя граница вероятности данных, используемая как функция потерь при обучении VAE.
KL-дивергенция
Мера различия между двумя вероятностными распределениями.
Дизентанглмент
Свойство модели разделять независимые факторы вариации данных по разным измерениям латентного пространства.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект variational autoencoders machine learning latent space MIT OpenCourseWare