Филипп Изола о VAE: «Математика, которая объясняет мир»

Генеративные модели: Интеграция обучения представлениям и моделирования данных 0:12

Современные подходы к машинному обучению всё чаще связывают две фундаментальные задачи: обучение представлениям (mapping data to representations) и генеративное моделирование (mapping representations to data). По мнению Филиппа Изолы, преподавателя MIT, эти процессы являются своего рода «стохастическими инверсиями» друг друга, и вариационные автокодировщики (VAE) представляют собой инструмент, объединяющий оба подхода в рамках одной архитектуры.

🧠 Анатомия вариационного автокодировщика (VAE) 7:34

В основе VAE лежит простая, но фундаментальная идея: превратить латентное пространство (пространство скрытых переменных $z$) в понятное и структурированное распределение — обычно в Гауссово.

Кодировщик (Encoder): Отображает входные данные $x$ в латентное пространство $z$.
Декодировщик (Generator/Decoder): Отображает $z$ обратно в исходное пространство данных $x$.

Основная сложность обычного автокодировщика заключается в отсутствии контроля над тем, какую форму принимают латентные представления. Если просто обучить модель восстанавливать данные, латентное пространство может оказаться хаотичным, с «дырами», из которых невозможно сэмплировать новые данные. VAE решает эту проблему, принудительно направляя энкодер к созданию латентного пространства, которое аппроксимирует Гауссово распределение.

📊 Моделирование данных: бесконечная смесь Гауссианов 9:39

Математически VAE можно интерпретировать как подгонку бесконечной смеси Гауссианов к распределению данных. Поскольку мы не можем явно задать бесконечное количество параметров для бесконечного числа Гауссианов, используется «трюк»: нейронная сеть $g$ (декодировщик) принимает на вход точку из латентного пространства и возвращает параметры Гауссиана (среднее и дисперсию) для этой конкретной области.

Таким образом, генерация нового изображения происходит в два этапа:

Сэмплирование вектора $z$ из простого априорного распределения (например, нормального).
Прогон $z$ через декодировщик для получения параметров распределения, из которого и извлекается итоговый сэмпл $x$.

📉 Решение проблемы вычислимости: ELBO и три трюка 28:28

Прямая оптимизация вероятности данных (marginal likelihood) требует вычисления сложного интеграла, что является «невычислимой» задачей. Для обхода этого Изола выделяет три ключевых приема:

Аппроксимация Монте-Карло: Замена сложного интеграла усреднением по конечному набору сэмплов из априорного распределения.
Важное сэмплирование (Importance Sampling): Использование вместо случайного сэмплирования выборки из «умного» распределения, которое ставит больший вес на те области $z$, что дают высокую вероятность для $x$.
Оптимизация параметров с помощью нейросети: Обучение отдельной нейросети-энкодера ($q$), которая предсказывает оптимальное распределение $z$ для заданного $x$.

Итоговая цель обучения — максимизация ELBO (Evidence Lower Bound, «нижняя граница свидетельств»). Этот показатель состоит из двух слагаемых:

Реконструкция: Насколько хорошо декодировщик восстанавливает входной сигнал $x$ (похоже на работу обычного автокодировщика).
KL-дивергенция: Насколько распределение, предсказанное энкодером, близко к «идеальному» априорному Гауссову распределению.

Фундаментальное «натяжение» в VAE возникает именно здесь: энкодер пытается сжать все представления к «нулю» (к центру Гауссиана), но необходимость сохранить информацию для точной реконструкции данных сопротивляется этому сжатию, заставляя латентное пространство эффективно заполнять пространство вероятностей.

🌌 Представления и интерпретируемость 1:12:22

Важный аспект VAE — способность к дизентанглменту (разъединению факторов вариации). В ходе экспериментов выяснилось, что отдельные измерения в латентном пространстве часто соответствуют конкретным визуальным атрибутам (например, цвет травы или кривизна реки).

Однако Изола предупреждает: эти «факторы» не всегда совпадают с истинными причинно-следственными механизмами, заложенными в данных. Часто модель создает абстрактные, интуитивно понятные концепции, которые позволяют эффективно описывать мир, даже если они не являются «физически верными» в строгом смысле. В конечном итоге, все генеративные модели — VAE, GAN, диффузионные модели и авторегрессионные системы — решают задачу сжатия и объяснения структуры мира с разными компромиссами между точностью аппроксимации и вычислительной эффективностью.