Янник Кильхер: почему чистое распутывание представлений в ИИ невозможно

Yannic Kilcher 9,7 тыс. 27 мин 4 мин 18.12.2018
Главное

В видеоразборе известного исследователя Янника Кильхера (Yannic Kilcher) подробно рассматривается фундаментальная научная работа «Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations», подготовленная специалистами из Google, ETH Zurich и MPI. Ведущий анализирует концепцию распутывания представлений (disentanglement) в обучении без учителя и объясняет, почему популярные предположения в этой области оказались ошибочными. Главный вывод статьи подрывает основы многих подходов к генеративным моделям, доказывая теоретическую невозможность распутывания без явных априорных допущений.

🧩 Концепция распутывания представлений и автокодировщики 0:27

Янник Кильхер начинает разбор с объяснения базового понятия распутывания представлений (disentanglement). Это свойство модели в обучении без учителя, особенно востребованное в генеративных алгоритмах, таких как автокодировщики.

Классический автокодировщик работает по следующему принципу:

  1. На вход подается объект данных, например изображение $X$.
  2. Компонент, называемый кодировщиком (encoder), сжимает это изображение в вектор скрытых представлений (latent vector).
  3. Другой компонент — декодировщик (decoder) — берет этот вектор и пытается восстановить исходное изображение, минимизируя различия между оригиналом и результатом.

По мнению Янника Кильхера, идеальное «распутанное» представление должно разделять независимые свойства данных по отдельным измерениям скрытого вектора. В качестве примера он приводит гипотетическую генерацию изображений кошек. Если скрытое представление распутано, то изменение одного конкретного фактора (например, цвета шерсти) будет происходить независимо от других факторов, таких как размер кошки, ее положение в кадре или освещение. Напротив, в запутанном (entangled) представлении кодировались бы одновременно и цвет шерсти, и порода кошки, поскольку эти параметры сильно скоррелированы в реальном мире.

Ведущий подчеркивает, что в научном сообществе до сих пор нет единого консенсуса относительно точного математического определения распутывания, однако исследователи интуитивно стремятся извлечь эти независимые скрытые факторы.

🧮 Математическая структура вариационных автокодировщиков (VAE) 2:13

Все эксперименты, рассматриваемые в статье, базируются на модификациях вариационных автокодировщиков (VAE). В отличие от детерминированных автокодировщиков, VAE представляет собой вероятностный фреймворк.

Пошаговый процесс работы VAE выглядит следующим образом:

  1. Кодировщик принимает изображение $X$, но вместо фиксированного вектора он вычисляет параметры вероятностных распределений для каждого скрытого фактора.
  2. Для $N$ скрытых факторов кодировщик должен выдать $2N$ чисел, представляющих собой математическое ожидание (mean) и стандартное отклонение (standard deviation) для каждого распределения. Например, для 4 факторов модель генерирует 8 параметров.
  3. Из полученных распределений случайным образом берется выборка (семплирование). Из-за этого скрытый вектор будет немного отличаться при каждом новом проходе даже для одного и того же изображения.
  4. Декодировщик использует этот распределенный вектор для реконструкции финального изображения.

Для обучения такой системы используется специальная функция потерь (loss function), состоящая из двух ключевых компонентов:

🛑 Теорема о невозможности беспристрастного распутывания 19:06

Главный теоретический вклад обсуждаемой статьи заключается в доказательстве математической теоремы, которая утверждает: обучение распутанным представлениям без учителя принципиально невозможно без введения априорных предположений (inductive biases) о данных и архитектуре модели.

Суть допущения распутывания состоит в том, что реальные данные $X$ генерируются набором независимых скрытых переменных, где совместное распределение факторизуется: $p(z) = \prod_i p(z_i)$. Модель считается успешно распутанной, если при изменении одного истинного фактора в реальности меняется строго одна координата в скрытом представлении модели. Однако, как отмечает Янник Кильхер, в реальных задачах у нас никогда нет прямого доступа к истинному распределению мира.

Авторы статьи математически доказывают существование бесконечного семейства биективных функций $f$, которые могут трансформировать исходное независимое скрытое распределение в совершенно иное, запутанное распределение. При этом совокупные маргинальные распределения данных на выходе будут выглядеть абсолютно одинаково.

Математическое условие запутанности выражается через частные производные функции трансформации:

$$\frac{\partial f_i(u)}{\partial u_j} \neq 0 \quad \text{при} \quad i \neq j$$

Это означает, что одно измерение скрытого пространства начинает напрямую влиять на другие, разрушая независимость факторов.

Для визуализации этой проблемы Янник Кильхер приводит геометрический пример с двумерным гауссовским распределением:

  1. Изначально есть две независимые гауссианы, образующие симметричный изотропный «холмик» вероятности в двумерном пространстве.
  2. Если применить функцию трансформации $f$, которая поворачивает систему координат на 45 градусов, распределения смещаются и становятся зависимыми друг от друга в рамках исходных осей. Теперь для описания точки требуются обе координаты одновременно.
  3. Однако суммарная плотность распределения для внешнего наблюдателя останется абсолютно неизменной.

Поскольку внешние проявления данных идентичны, у модели, обучающейся без учителя, нет никаких шансов определить, исходят ли данные из распутанного или из повернутого (запутанного) пространства. По мнению Кильхера, из-за существования бесконечного количества таких запутывающих трансформаций вероятность случайно выбрать правильную структуру без внешних подсказок стремится к нулю.

🔬 Практическое значение и эмпирические тесты 26:43

Несмотря на суровый теоретический запрет, авторы статьи не утверждают, что распутывание представлений бесполезно на практике. Янник Кильхер объясняет, что невозможность «чистого» обучения без учителя заставляет исследователей переключить фокус на правильное внедрение индуктивных смещений (inductive biases).

В практической части работы исследователи провели масштабные эксперименты:

По мнению ведущего, данная публикация выполняет важнейшую роль «оздоровления» области машинного обучения, четко разграничивая теоретические мифы и реальные инженерные возможности, а также указывая будущим исследованиям верное направление.

💬 Цитаты

«В научном сообществе до сих пор нет единого консенсуса относительно точного математического определения распутывания, однако исследователи интуитивно стремятся извлечь эти независимые скрытые факторы»

Янник Кильхер 14:18

«Из-за существования бесконечного количества таких запутывающих трансформаций вероятность случайно выбрать правильную структуру без внешних подсказок стремится к нулю»

Янник Кильхер 25:36
👥 Спикер
📖 Термины
Распутывание представлений (Disentanglement)
Свойство модели ИИ, при котором независимые характеристики объекта кодируются в раздельных переменных.
Вариационный автокодировщик (VAE)
Нейросетевая архитектура, которая сжимает данные в вероятностные распределения скрытых признаков и затем восстанавливает их.
Расстояние Кульбака — Лейблера (KL Divergence)
Статистическая мера, оценивающая степень различия между двумя вероятностными распределениями.
Индуктивное смещение (Inductive bias)
Набор априорных допущений и ограничений, закладываемых в модель ИИ для повышения ее предсказательной способности.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Янник Кильхер Variational Autoencoder Disentangled Representations Обучение без учителя