Axial-DeepLab: Как механизм осевого внимания заменяет свёртки в компьютерном зрении

Yannic Kilcher 15,4 тыс. 55 мин 4 мин 28.08.2020
Главное

Трансформеры, совершившие революцию в обработке естественного языка (NLP), постепенно захватывают и область компьютерного зрения. В новом видео Янник Килхер (Yannic Kilcher) подробно разбирает статью «Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation», авторы которой предлагают радикальный шаг — полный отказ от свёрточных слоев в пользу механизмов внимания для задач сегментации изображений.

🚀 Прощание со свёртками: Новая эра компьютерного зрения 0:00

Янник Килхер начинает обзор с ироничного замечания о том, как быстро трансформеры вытесняют классические архитектуры. Если вчера они заменили LSTM в задачах перевода и анализа текста, то сегодня они всерьез претендуют на место свёрточных нейросетей (CNN) в обработке изображений. Автор в шутку задается вопросом: не заменят ли завтра гигантские трансформеры, обученные на тысячах TPU, даже обычную линейную регрессию?.

Основной фокус статьи Axial-DeepLab направлен на задачу панорамной сегментации. В отличие от простой классификации, здесь модели необходимо:

🧠 Проблема «тяжелого» внимания 2:23

Механизмы внимания идеально подходят для установления связей между удаленными частями изображения, однако они чрезвычайно ресурсозатратны. По словам Килхера, классический трансформер (например, BERT) работает с последовательностями длиной 512 токенов, и даже это требует мощного оборудования.

С изображениями ситуация сложнее:

Чтобы решить эту проблему, авторы Axial-DeepLab предлагают гибридный подход: сохранить динамическую природу внимания, но ограничить область его работы, чтобы снизить вычислительную сложность.

🛠 Архитектура Axial-DeepLab: Осевое внимание и позиционное кодирование 4:12

Янник Килхер выделяет четыре ключевых вклада авторов статьи в развитие области:

  1. Создание первой модели на основе «чистого» внимания (standalone attention) с глобальным полем зрения.
  2. Разработка слоя внимания, чувствительного к положению пикселей (position-sensitive).
  3. Доказательство эффективности осевого внимания не только для классификации, но и для сложных задач сегментации.
  4. Достижение результатов уровня State-of-the-Art (SOTA) на датасетах COCO, Cityscapes и Mapillary Vistas.

Позиционное кодирование

В отличие от свёрток, которые «из коробки» знают о взаимном расположении пикселей, механизм внимания воспринимает изображение просто как набор (set) данных без структуры. Чтобы модель понимала геометрию кадра, авторы используют обучаемые относительные позиционные кодирования (learned relative positional encodings).

Килхер объясняет это так: модель обучается отдельным векторам для позиций «справа», «слева», «сверху» и так далее. Это позволяет каждому пикселю при запросе информации учитывать не только содержимое соседа, но и его дистанцию.

📏 Как работает Axial Attention 31:10

Главная инновация — разделение 2D-внимания на два последовательных 1D-шага. Вместо того чтобы заставлять каждый пиксель смотреть на все остальные пиксели сразу, авторы предлагают:

По мнению Килхера, это похоже на «трюк» для повышения эффективности. В такой схеме информация от любого пикселя может достичь любой другой точки изображения всего за два слоя. Это гораздо быстрее, чем в обычных свёрточных сетях, где для «общения» удаленных углов картинки требуется пройти через множество глубоких слоев.

Вычислительная сложность при этом падает с квадратичной ($O(H^2 W^2)$) до гораздо более приемлемых значений, сопоставимых с длиной сторон изображения.

📊 Результаты и визуализация: Что видит нейросеть? 46:15

Авторы заменили стандартные блоки ResNet на блоки осевого внимания и протестировали модель на ImageNet. Axial-DeepLab показал результат 78,1% (Top-1 accuracy), что Килхер называет отличным показателем для архитектуры без свёрток, хотя это и не абсолютный мировой рекорд среди всех типов моделей.

Особый интерес представляют примеры сегментации сложных сцен:

Анализ голов внимания

При визуализации того, на что именно смотрят «головы» (heads) трансформера, обнаружились любопытные закономерности. Некоторые головы специализируются на поиске человеческих лиц, другие — на текстуре травы или фона.

Однако Янник Килхер относится к интерпретации этих результатов с долей скепсиса. Он предполагает наличие «тактического письма» в научной работе: когда авторы пытаются найти глубокий смысл в визуализациях, которые могут быть не столь однозначными, просто чтобы сделать статью более убедительной.

В заключение Килхер отмечает, что Axial-DeepLab — это важная веха, показывающая, как принципы NLP-трансформеров могут быть эффективно адаптированы под жесткие вычислительные ограничения компьютерного зрения.

💬 Цитаты

«Трансформеры быстро приходят на смену вашим любимым моделям. Вчера они заменили LSTM в NLP, сегодня мы видим, что они могут заменить свёртки в обработке изображений.»

Янник Килхер 00:00

«В этой модели информация от любого пикселя может достичь любой другой точки изображения всего за два шага.»

Янник Килхер 38:17
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Панорамная сегментация
Задача компьютерного зрения, объединяющая семантическую сегментацию (что на фото) и сегментацию экземпляров (разделение объектов одного класса).
Осевое внимание (Axial Attention)
Метод оптимизации, при котором внимание вычисляется отдельно вдоль осей высоты и ширины изображения для экономии ресурсов.
Позиционное кодирование
Дополнительная информация, передаваемая трансформеру, чтобы он понимал порядок элементов в последовательности или пикселей в сетке.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Axial-DeepLab Axial Attention Panoptic Segmentation Yannic Kilcher