Как работают Gradient Origin Networks без явного кодера?

В новом выпуске инженерного блога популярный IT-исследователь Янник Килчер (Yannic Kilcher) детально разбирает свежую научную публикацию представителей Даремского университета, посвященную архитектуре Gradient Origin Networks. Предложенный авторами подход описывает инновационный тип неявных генеративных моделей, способных быстро и эффективно формировать латентное пространство без использования громоздких явных кодеров. Ведущий не только подробно деконструирует математическую основу алгоритма, но и проводит серию практических экспериментов с исходным кодом, проверяя жизнеспособность авторских гипотез в реальном времени.

🧠 Что такое неявные представления и сети SIREN

<a class="ts" data-seconds="0" href="#t=0" title="Смотреть с 0:00" aria-label="Смотреть с 0:00"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Разбираемая Янником Килчером работа под авторством Сэма Бонд-Тейлора (Sam Bond-Taylor) и Криса Г. Уилкокса (Chris G. Wilcox) представляет собой лаконичную статью объемом всего в четыре страницы. Несмотря на скромный размер, публикация предлагает весьма оригинальный взгляд на обучение генеративных моделей. Чтобы разобраться в механике Gradient Origin Networks, Килчер предлагает сначала вспомнить концепцию неявных представлений (implicit representation).

Обычно цифровое изображение хранится в явном виде — как упорядоченный дискретный массив данных, где каждому пикселю соответствуют конкретные значения цветовых каналов RGB. Неявный подход полностью меняет эту парадигму: изображение превращается в непрерывную математическую функцию. Нейросеть принимает на вход пространственные координаты точки $(x, y)$ и вычисляет для них корректный цвет. В результате вся картинка целиком оказывается закодированной внутри весов одной-единственной нейросети.

По словам Килчера, наиболее ярким примером такой технологии являются координатные сети SIREN. Главные технологические особенности сетей SIREN:

Каждая точка данных или графический объект кодируется своей индивидуальной изолированной нейросетью.
Внутри архитектуры в качестве функций нелинейной активации применяются синусоиды, что позволяет эффективно улавливать текстуры и сложные производные сигналов.
Сеть строит полностью непрерывное математическое представление объекта вместо привычной дискретной сетки пикселей.

Однако у классических неявных моделей есть фундаментальный недостаток: для обработки коллекции из тысяч изображений инженерам приходится обучать тысячи отдельных нейросетей, что крайне непрактично.

🌐 Переход к целым датасетам: концепция Gradient Origin Networks

<a class="ts" data-seconds="328" href="#t=328" title="Смотреть с 5:28" aria-label="Смотреть с 5:28"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Главная идея создателей Gradient Origin Networks заключается в масштабировании неявных представлений на целые наборы данных в рамках одной нейросети. Простая подача идентификатора картинки вместе с координатами $(x, y)$ не решает проблему глобального обобщения признаков. По мнению Янника Килчера, гораздо эффективнее интегрировать неявные координатные сети с классическими латентными моделями, такими как автокодировщики.

В традиционных вариационных автокодировщиках (VAE) процесс обработки устроен следующим образом:

Входной объект подается на явную нейросеть-кодер (Explicit Encoder).
Кодер сжимает информацию и возвращает параметры распределения латентной переменной $z$.
Из латентного пространства сэмплируется вектор, который затем передается в декодер для воссоздания исходного объекта.

Скрытый вектор $z$ фактически определяет положение объекта на непрерывном многообразии данных (data manifold), позволяя осуществлять плавную интерполяцию. Однако Килчер указывает на ключевую проблему: в таких архитектурах, как GAN, извлечь скрытый вектор $z$ для нового изображения без готового кодера невозможно. Проект Gradient Origin Networks предлагает элегантный выход из этого тупика — вычисление скрытого вектора $z$ без обучения какой-либо отдельной нейросети-кодера. Модель принимает пространственные координаты вместе с латентным вектором, который изначально жестко инициализируется нулями.

🧮 Разбор математики и функции потерь

<a class="ts" data-seconds="661" href="#t=661" title="Смотреть с 11:01" aria-label="Смотреть с 11:01"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Формулировка авторов статьи гласит, что градиенты функции потерь реконструкции относительно нулевого вектора оптимизируются совместно, формируя точки скрытого многообразия данных. Ведущий признается, что при первом чтении этот тезис может сбить с толку. Для упрощения понимания Янник предлагает деконструировать целевую функцию, убрав пугающие интегралы по координатному пространству. По сути, в системе применяется классическая метрика L2, оценивающая точность воссоздания картинки.

Процесс генерации латентного признака в Gradient Origin Networks разворачивается по следующему алгоритму:

Изначально задается стартовое латентное приближение $z_0$, причем система делает это вслепую, еще не анализируя целевое изображение. Авторы жестко фиксируют значение $z_0$ на отметке ноль.
Координатная нейросеть $f$ генерирует первый черновой вариант изображения на основе этого нулевого вектора.
Рассчитывается градиент ошибки между полученным черновым вариантом и оригинальным изображением относительно $z_0$.
Полученный отрицательный градиент принимается в качестве итогового латентного вектора $z$ для данного изображения, который повторно направляется в сеть для финальной точной реконструкции.

Янник Килчер выражает открытое несогласие с ключевым утверждением создателей алгоритма о том, что этот метод за один единственный шаг находит идеальный вектор $z$ и полноценно заменяет классический кодер. По мнению Килчера, перед нами обычный одиночный шаг градиентного спуска в латентном пространстве со скоростью обучения, равной единице. Так как стартовая точка $z_0$ равна нулю, она просто опускается при вычислениях, создавая иллюзию уникального математического процесса.

💻 Практический эксперимент и проверка гипотез Янника

<a class="ts" data-seconds="1680" href="#t=1680" title="Смотреть с 28:00" aria-label="Смотреть с 28:00"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Для верификации своих критических замечаний Янник Килчер развернул официальный исходный код авторов на собственном сервере с GPU, протестировав его на популярном датасете Fashion MNIST. Базовый алгоритм осуществляет 500 шагов оптимизации параметров. В каждом цикле программа берет нулевой вектор, считает внутренний лосс, вычисляет градиент для формирования вектора $z$, а затем обновляет глобальные веса сети по внешнему лоссу реконструкции. При стандартном запуске ошибка модели снизилась с 24 до примерно 13–14 единиц.

В рамках живого кодинга ведущий последовательно проверил две собственные гипотезы:

Гипотеза об инициализации: Если алгоритм является обычным градиентным спуском, то стартовать из строгого нуля необязательно. Килчер заменил нули на единицы, а затем на случайные значения из нормального распределения с микроскопической дисперсией ($\sigma = 0.01$). В обоих случаях сеть успешно сошлась к исходному уровню ошибки (~13–14), подтвердив его правоту.
Гипотеза о многошаговой оптимизации: Качество скрытого представления можно радикально улучшить, выполнив несколько шагов градиентного спуска во внутреннем цикле. Килчер модифицировал код, добавив второй шаг вычисления градиента и внедрив затухающий шаг обучения (сначала деление градиента на 3, затем на 6).

Результаты модификации оказались впечатляющими: уровень ошибки реконструкции рухнул до рекордного значения 9. Как утверждает Килчер, этот эксперимент наглядно доказывает, что технология представляет собой давно известную процедуру обращения генератора с помощью градиентного спуска, которая здесь весьма удачно синергирует со свойствами неявных сетей.

👁️ Применение в классификации и выводы

<a class="ts" data-seconds="2324" href="#t=2324" title="Смотреть с 38:44" aria-label="Смотреть с 38:44"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

В финальной части обзора Янник Килчер разбирает дополнительный математический сценарий, предложенный в статье, — адаптацию Gradient Origin Networks для решения задач классификации данных. Авторы вводят кросс-энтропийную функцию потерь между эталонной меткой класса $y$ и логитами, рассчитываемыми напрямую из сформированного латентного вектора $z$. При таком подходе неявная координатная сеть превращается в автономный экстрактор признаков (feature producer).

Тем не менее, Янник Килчер скептически оценивает реальную эффективность подобного метода классификации. По его словам, классификаторам общего назначения совершенно не требуется избыточная информация, необходимая для детального попиксельного восстановления изображений. Практика показывает, что извлечение признаков из традиционных автокодировщиков (VAE) для последующего обучения классификаторов обычно уступает специализированным дискриминативным моделям.

Несмотря на критику отдельных аспектов, Килчер выделяет ряд бесспорных преимуществ Gradient Origin Networks:

Минимальный объем дисковой памяти и параметров для компактного хранения признаков огромного датасета.
Впечатляющая скорость первоначального обучения — базовые контуры структуры данных формируются в сети всего за 3 секунды.
Высокое качество и плавность интерполяции между точками данных внутри скрытого пространства.

Проект оставляет приятное впечатление перспективного рабочего прототипа, потенциал которого можно значительно расширить за счет более гибкой настройки внутренней оптимизации.