Axial-DeepLab: Как механизм осевого внимания заменяет свёртки в компьютерном зрении

Трансформеры, совершившие революцию в обработке естественного языка (NLP), постепенно захватывают и область компьютерного зрения. В новом видео Янник Килхер (Yannic Kilcher) подробно разбирает статью «Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation», авторы которой предлагают радикальный шаг — полный отказ от свёрточных слоев в пользу механизмов внимания для задач сегментации изображений.

🚀 Прощание со свёртками: Новая эра компьютерного зрения 0:00

Янник Килхер начинает обзор с ироничного замечания о том, как быстро трансформеры вытесняют классические архитектуры. Если вчера они заменили LSTM в задачах перевода и анализа текста, то сегодня они всерьез претендуют на место свёрточных нейросетей (CNN) в обработке изображений. Автор в шутку задается вопросом: не заменят ли завтра гигантские трансформеры, обученные на тысячах TPU, даже обычную линейную регрессию?.

Основной фокус статьи Axial-DeepLab направлен на задачу панорамной сегментации. В отличие от простой классификации, здесь модели необходимо:

Определить каждый пиксель изображения (что это: кошка, дом или небо).
Разделить отдельные экземпляры одного и того же класса (отличить одну кошку от другой).
Учитывать «дальние связи» (long-range dependencies) — например, понимание того, что части стены, разделенные препятствием, относятся к одному объекту.

🧠 Проблема «тяжелого» внимания 2:23

Механизмы внимания идеально подходят для установления связей между удаленными частями изображения, однако они чрезвычайно ресурсозатратны. По словам Килхера, классический трансформер (например, BERT) работает с последовательностями длиной 512 токенов, и даже это требует мощного оборудования.

С изображениями ситуация сложнее:

Даже маленькая картинка из набора MNIST (28x28 пикселей) дает около 700 входных точек.
Стандартное изображение для ImageNet (224x224) создает огромную вычислительную нагрузку, так как сложность внимания растет квадратично относительно количества пикселей.
Для полноценной сегментации в высоком разрешении «чистый» механизм внимания становится практически неприменимым из-за нехватки памяти.

Чтобы решить эту проблему, авторы Axial-DeepLab предлагают гибридный подход: сохранить динамическую природу внимания, но ограничить область его работы, чтобы снизить вычислительную сложность.

🛠 Архитектура Axial-DeepLab: Осевое внимание и позиционное кодирование 4:12

Янник Килхер выделяет четыре ключевых вклада авторов статьи в развитие области:

Создание первой модели на основе «чистого» внимания (standalone attention) с глобальным полем зрения.
Разработка слоя внимания, чувствительного к положению пикселей (position-sensitive).
Доказательство эффективности осевого внимания не только для классификации, но и для сложных задач сегментации.
Достижение результатов уровня State-of-the-Art (SOTA) на датасетах COCO, Cityscapes и Mapillary Vistas.

Позиционное кодирование

В отличие от свёрток, которые «из коробки» знают о взаимном расположении пикселей, механизм внимания воспринимает изображение просто как набор (set) данных без структуры. Чтобы модель понимала геометрию кадра, авторы используют обучаемые относительные позиционные кодирования (learned relative positional encodings).

Килхер объясняет это так: модель обучается отдельным векторам для позиций «справа», «слева», «сверху» и так далее. Это позволяет каждому пикселю при запросе информации учитывать не только содержимое соседа, но и его дистанцию.

📏 Как работает Axial Attention 31:10

Главная инновация — разделение 2D-внимания на два последовательных 1D-шага. Вместо того чтобы заставлять каждый пиксель смотреть на все остальные пиксели сразу, авторы предлагают:

Шаг 1 (Высота): Пиксель взаимодействует только с соседями по своей вертикальной колонке.
Шаг 2 (Ширина): Полученный результат обрабатывается вниманием только вдоль горизонтальной строки.

По мнению Килхера, это похоже на «трюк» для повышения эффективности. В такой схеме информация от любого пикселя может достичь любой другой точки изображения всего за два слоя. Это гораздо быстрее, чем в обычных свёрточных сетях, где для «общения» удаленных углов картинки требуется пройти через множество глубоких слоев.

Вычислительная сложность при этом падает с квадратичной ($O(H^2 W^2)$) до гораздо более приемлемых значений, сопоставимых с длиной сторон изображения.

📊 Результаты и визуализация: Что видит нейросеть? 46:15

Авторы заменили стандартные блоки ResNet на блоки осевого внимания и протестировали модель на ImageNet. Axial-DeepLab показал результат 78,1% (Top-1 accuracy), что Килхер называет отличным показателем для архитектуры без свёрток, хотя это и не абсолютный мировой рекорд среди всех типов моделей.

Особый интерес представляют примеры сегментации сложных сцен:

Устойчивость к перекрытиям: Модель успешно отделяет галстук от рубашки или человека от доски для серфинга, понимая, что части одного объекта продолжаются за препятствием.
Дальние связи: Модель способна объединить в одну категорию левую и правую части объекта (например, ноутбука в руках), даже если они физически не соприкасаются на картинке.

Анализ голов внимания

При визуализации того, на что именно смотрят «головы» (heads) трансформера, обнаружились любопытные закономерности. Некоторые головы специализируются на поиске человеческих лиц, другие — на текстуре травы или фона.

Однако Янник Килхер относится к интерпретации этих результатов с долей скепсиса. Он предполагает наличие «тактического письма» в научной работе: когда авторы пытаются найти глубокий смысл в визуализациях, которые могут быть не столь однозначными, просто чтобы сделать статью более убедительной.

В заключение Килхер отмечает, что Axial-DeepLab — это важная веха, показывающая, как принципы NLP-трансформеров могут быть эффективно адаптированы под жесткие вычислительные ограничения компьютерного зрения.