Янник Килчер разобрал калибровочно-эквивариантные нейросети для сфер

В новом видео исследователь искусственного интеллекта Янник Килчер (Yannic Kilcher) разбирает революционный математический подход к созданию нейросетей, способных работать со сложными искривлёнными поверхностями. В центре внимания — научная работа «Gauge Equivariant Convolutional Networks and the Icosahedral CNN», авторы которой смогли перенести классическую операцию свёртки из плоскости на сферы и многообразия. Этот метод позволяет эффективно решать задачи в диапазоне от прогнозирования климата Земли до сегментации панорамных 3D-изображений, успешно обходя фундаментальные геометрические ограничения традиционных архитектур.

🌐 Проблема кривизны: почему обычные CNN «теряются» на сфере 0:00

Свёрточные нейросети (CNN) совершили революцию в обработке плоских изображений. В обычном двухмерном пространстве всё устроено интуитивно понятно: у нас есть ядро свёртки (фильтр), представляющее собой небольшой паттерн весов, который последовательно сдвигается по пикселям картинки. Фильтр выявляет локальные признаки — например, вертикальные или горизонтальные линии на рисунке кота, а затем агрегирует их в единую точку новой карты признаков. В плоском мире направление «вверх» для фильтра всегда остаётся неизменным, независимо от траектории его движения.

Однако всё кардинально меняется, когда мы пытаемся запустить нейросеть на искривлённом многообразии (manifold), простейшим примером которого является сфера. Работа со сферическими данными критически важна для предсказания климатических изменений на поверхности Земли или анализа панорамного видео. Янник Килчер наглядно демонстрирует фундаментальную проблему «плоской» свёртки на примере перемещения стрелки по сфере.

Если сдвигать фильтр из начальной точки в конечную по одному пути (например, вдоль экватора), направление «вверх» для фильтра окажется направленным в одну сторону, а если пойти другим путём (через полюс) — направление изменится. В геометрии это явление называется зависимостью параллельного переноса от пути (path-dependent parallel transport). Из-за этого свойства невозможно просто взять стандартный плоский фильтр и двигать его по сфере: результаты вычислений будут хаотично меняться в зависимости от выбранного маршрута.

📐 Касательное пространство и экспоненциальное отображение 6:12

Чтобы преодолеть ограничение параллельного переноса, авторы исследуемой работы — Тако Коэн, Морис Вайлер, Беркай Киканаоглу и Макс Веллинг — предложили использовать строгий аппарат дифференциальной геометрии. Вместо того чтобы пытаться проводить свёртку прямо на искривлённой поверхности сферы, алгоритм на каждом шаге переходит в так называемое касательное пространство (tangent space).

Касательное пространство в конкретной точке $P$ на многообразии можно представить как абсолютно плоский лист бумаги, который соприкасается со сферой в этой единственной точке. На таком гипотетическом плоском листе уже можно стандартным образом определить и расположить привычное плоское ядро свёртки.

Для связи точек на сфере с касательным пространством используется математический инструмент, известный как экспоненциальное отображение (exponential map). Ведущий поясняет, что в данном контексте это не стандартное возведение чисел в степень.

Работает это следующим образом:

В касательном пространстве выбирается прямой вектор, задающий направление.
Затем алгоритм «шагает» по самой сфере в направлении этого вектора на определённую длину вдоль геодезической линии — кратчайшего пути на искривлённой поверхности.
Точка, в которой происходит остановка на сфере, и является искомой проекцией точки из касательного пространства.

Таким образом, для выполнения полноценной свёртки значения из многообразия проецируются обратно в касательное пространство, где и происходит стандартное перемножение весов фильтра на признаки.

🔄 Калибровочная эквивариантность: укрощение систем координат 9:01

Хотя идея с использованием касательного пространства выглядит логично, она немедленно порождает новую проблему — зависимость вычислений от калибровки (gauge). Под калибровкой в данном случае понимается конкретный выбор базисных векторов (локальной системы координат) в касательном пространстве. Вектор сам по себе — это абстрактный геометрический объект, но для компьютерных вычислений его необходимо выразить в конкретных числах, а числа всегда привязаны к выбранному базису.

Если случайно повернуть базисные векторы, изменятся и числовые координаты одного и того же вектора. Переход между различными базисами описывается формулами линейной алгебры и называется калибровочным преобразованием (gauge transformation). Чтобы нейросеть выдавала стабильный результат, её свёртка должна обладать свойством калибровочной эквивариантности (gauge equivariance). Это означает, что независимо от выбранного локального базиса в касательном пространстве, итоговый результат свёртки как геометрический объект обязан оставаться неизменным.

Янник Килчер с юмором отмечает, что он, возможно, «совершенно калечит эту тему» с точки зрения профессиональных физиков или математиков, но главное — передать инженерную суть. Результат работы сети не должен зависеть от случайного поворота локальной рамки координат при сдвиге фильтра.

Для выполнения этого требования на ядро свёртки накладывается строгое математическое условие: при трансформации входных данных матрицей перехода системы координат фильтр должен реагировать строго определённым, предсказуемым образом. Практически это реализуется за счёт модификации свёртки: перед вычислением значения точек переносятся обратно вдоль геодезической линии, полностью компенсируя координатный сдвиг.

🎲 Икосаэдрическая CNN: от абстрактной теории к эффективному коду 15:53

Проводить чистые математические вычисления на непрерывных сферах в компьютерной логике слишком дорого и неэффективно. Поэтому авторы статьи применили свой абстрактный фреймворк к дискретной фигуре — икосаэдру (icosahedron), трёхмерному правильному многограннику, состоящему из 20 треугольных граней.

Фильтр в такой икосаэдрической CNN (Icosahedral CNN) имеет форму правильного шестиугольника. При перемещении этого фильтра по поверхности многогранника возникает проблема прохождения через углы и рёбра. Если попытаться просто «разгладить» угол икосаэдра на плоскости, то на границах образуются пустые клиновидные вырезы, ломающие топологию сетки.

Решение, предложенное исследователями, оказалось удивительно изящным и практичным:

Икосаэдр разрезается и разворачивается на плоскости в виде пяти структурированных блоков.
Для сохранения непрерывности данных на стыках применяется специальный механизм дополнения (padding). Смежные рёбра на икосаэдре дублируются в виде граничных пикселей на плоской 2D-сетке.
Внутри сети организуется строгое разделение весов (weight sharing) между фильтрами.

Для шестиканального входного изображения базовые фильтры копируются и трансформируются ровно шесть раз для создания шести выходных каналов. Эти копии представляют собой различные линейные комбинации и повороты исходного фильтра, что визуально заметно по меняющейся интенсивности весов на схемах в видео.

Самый главный практический плюс такого подхода, по мнению Янника Килчера, заключается в том, что после правильного развёртывания и применения пэддинга всю эту сложную геометрию можно рассчитывать с помощью обычной, стандартной двухмерной свёртки (2D convolution). Это делает алгоритм колоссально эффективным и быстрым для выполнения на современных графических процессорах.

🏆 Превосходство на практике: от IcoMNIST до климатических моделей 19:58

Янник Килчер выражает искренний восторг тем фактом, что столь глубоко теоретическая математическая работа в итоге воплотилась в алгоритм, который в реальных тестах с лёгкостью превзошёл существующие коммерческие и научные аналоги (state-of-the-art).

Разработанная архитектура была успешно протестирована в трёх ключевых прикладных задачах:

IcoMNIST: Классический набор рукописных цифр MNIST был спроецирован на поверхность икосаэдра. Модель успешно классифицировала цифры, продемонстрировав встроенную инвариантность к симметриям многогранника. По словам Янника, если сеть обладает инвариантностью к симметриям, ей не нужно заучивать каждый поворот объекта по отдельности — она автоматически понимает, что повёрнутая фигура идентична оригиналу.
Сегментация климатических паттернов: Работа напрямую с виртуальным глобусом позволила точнее предсказывать глобальные погодные явления на Земле.
Всенаправленная (Omnidirectional) 3D-сегментация: Нейросеть обучали распознавать и сегментировать объекты в трёхмерных комнатах, используя сферические панорамные снимки формата «обзор 360 градусов».

Во всех этих экспериментах калибровочно-эквивариантная икосаэдрическая нейросеть показала результаты, значительно превосходящие альтернативные подходы, доказав жизнеспособность союза высшей геометрии и глубокого обучения.