Янник Кильхер: почему чистое распутывание представлений в ИИ невозможно

В видеоразборе известного исследователя Янника Кильхера (Yannic Kilcher) подробно рассматривается фундаментальная научная работа «Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations», подготовленная специалистами из Google, ETH Zurich и MPI. Ведущий анализирует концепцию распутывания представлений (disentanglement) в обучении без учителя и объясняет, почему популярные предположения в этой области оказались ошибочными. Главный вывод статьи подрывает основы многих подходов к генеративным моделям, доказывая теоретическую невозможность распутывания без явных априорных допущений.

🧩 Концепция распутывания представлений и автокодировщики 0:27

Янник Кильхер начинает разбор с объяснения базового понятия распутывания представлений (disentanglement). Это свойство модели в обучении без учителя, особенно востребованное в генеративных алгоритмах, таких как автокодировщики.

Классический автокодировщик работает по следующему принципу:

На вход подается объект данных, например изображение $X$.
Компонент, называемый кодировщиком (encoder), сжимает это изображение в вектор скрытых представлений (latent vector).
Другой компонент — декодировщик (decoder) — берет этот вектор и пытается восстановить исходное изображение, минимизируя различия между оригиналом и результатом.

По мнению Янника Кильхера, идеальное «распутанное» представление должно разделять независимые свойства данных по отдельным измерениям скрытого вектора. В качестве примера он приводит гипотетическую генерацию изображений кошек. Если скрытое представление распутано, то изменение одного конкретного фактора (например, цвета шерсти) будет происходить независимо от других факторов, таких как размер кошки, ее положение в кадре или освещение. Напротив, в запутанном (entangled) представлении кодировались бы одновременно и цвет шерсти, и порода кошки, поскольку эти параметры сильно скоррелированы в реальном мире.

Ведущий подчеркивает, что в научном сообществе до сих пор нет единого консенсуса относительно точного математического определения распутывания, однако исследователи интуитивно стремятся извлечь эти независимые скрытые факторы.

🧮 Математическая структура вариационных автокодировщиков (VAE) 2:13

Все эксперименты, рассматриваемые в статье, базируются на модификациях вариационных автокодировщиков (VAE). В отличие от детерминированных автокодировщиков, VAE представляет собой вероятностный фреймворк.

Пошаговый процесс работы VAE выглядит следующим образом:

Кодировщик принимает изображение $X$, но вместо фиксированного вектора он вычисляет параметры вероятностных распределений для каждого скрытого фактора.
Для $N$ скрытых факторов кодировщик должен выдать $2N$ чисел, представляющих собой математическое ожидание (mean) и стандартное отклонение (standard deviation) для каждого распределения. Например, для 4 факторов модель генерирует 8 параметров.
Из полученных распределений случайным образом берется выборка (семплирование). Из-за этого скрытый вектор будет немного отличаться при каждом новом проходе даже для одного и того же изображения.
Декодировщик использует этот распределенный вектор для реконструкции финального изображения.

Для обучения такой системы используется специальная функция потерь (loss function), состоящая из двух ключевых компонентов:

Компонент реконструкции (Reconstruction loss): максимизирует логарифмическое правдоподобие того, что модель выдаст исходное изображение на основе сгенерированного скрытого вектора $z$. Математически это выражается как ожидание: $\mathbb{E}_{q(z|x)}[\log p(x|z)]$. Это заставляет выходные данные быть максимально похожими на входные.
Расстояние Кульбака — Лейблера (KL Divergence): измеряет дистанцию между распределением, которое выдает кодировщик $q(z|x)$, и априорным распределением $p(z)$. В качестве априорного распределения обычно выбирается стандартное многомерное гауссовское распределение с нулевым средним значением и единичной дисперсией. Этот член заставляет скрытые переменные соответствовать заданной вероятностной структуре.

🛑 Теорема о невозможности беспристрастного распутывания 19:06

Главный теоретический вклад обсуждаемой статьи заключается в доказательстве математической теоремы, которая утверждает: обучение распутанным представлениям без учителя принципиально невозможно без введения априорных предположений (inductive biases) о данных и архитектуре модели.

Суть допущения распутывания состоит в том, что реальные данные $X$ генерируются набором независимых скрытых переменных, где совместное распределение факторизуется: $p(z) = \prod_i p(z_i)$. Модель считается успешно распутанной, если при изменении одного истинного фактора в реальности меняется строго одна координата в скрытом представлении модели. Однако, как отмечает Янник Кильхер, в реальных задачах у нас никогда нет прямого доступа к истинному распределению мира.

Авторы статьи математически доказывают существование бесконечного семейства биективных функций $f$, которые могут трансформировать исходное независимое скрытое распределение в совершенно иное, запутанное распределение. При этом совокупные маргинальные распределения данных на выходе будут выглядеть абсолютно одинаково.

Математическое условие запутанности выражается через частные производные функции трансформации:

$$\frac{\partial f_i(u)}{\partial u_j} \neq 0 \quad \text{при} \quad i \neq j$$

Это означает, что одно измерение скрытого пространства начинает напрямую влиять на другие, разрушая независимость факторов.

Для визуализации этой проблемы Янник Кильхер приводит геометрический пример с двумерным гауссовским распределением:

Изначально есть две независимые гауссианы, образующие симметричный изотропный «холмик» вероятности в двумерном пространстве.
Если применить функцию трансформации $f$, которая поворачивает систему координат на 45 градусов, распределения смещаются и становятся зависимыми друг от друга в рамках исходных осей. Теперь для описания точки требуются обе координаты одновременно.
Однако суммарная плотность распределения для внешнего наблюдателя останется абсолютно неизменной.

Поскольку внешние проявления данных идентичны, у модели, обучающейся без учителя, нет никаких шансов определить, исходят ли данные из распутанного или из повернутого (запутанного) пространства. По мнению Кильхера, из-за существования бесконечного количества таких запутывающих трансформаций вероятность случайно выбрать правильную структуру без внешних подсказок стремится к нулю.

🔬 Практическое значение и эмпирические тесты 26:43

Несмотря на суровый теоретический запрет, авторы статьи не утверждают, что распутывание представлений бесполезно на практике. Янник Кильхер объясняет, что невозможность «чистого» обучения без учителя заставляет исследователей переключить фокус на правильное внедрение индуктивных смещений (inductive biases).

В практической части работы исследователи провели масштабные эксперименты:

Были протестированы многочисленные популярные архитектуры вариационных автокодировщиков.
Модели обучались на нескольких фиксированных датасетах с известными истинными факторами генерации.
Эмпирически было зафиксировано, какие подходы и неявные допущения действительно помогают моделям приближаться к распутанным представлениям в реальных задачах.

По мнению ведущего, данная публикация выполняет важнейшую роль «оздоровления» области машинного обучения, четко разграничивая теоретические мифы и реальные инженерные возможности, а также указывая будущим исследованиям верное направление.