Янник Килхер: «Трансформеры — это самые универсальные вычислители»

В области искусственного интеллекта происходит очередная смена парадигм: архитектура Transformers, изначально созданная для обработки текста, начинает вытеснять классические сверточные нейросети из сферы компьютерного зрения. Известный ИИ-исследователь и блогер Янник Килхер (Yannic Kilcher) подробно разобрал резонансную научную статью «An Image is Worth 16x16 Words», которая закладывает основу для этого технологического сдвига. Автор анализирует не только техническую сторону архитектуры Vision Transformer (ViT), но и поднимает важные вопросы о прозрачности современного процесса рецензирования научных публикаций.

🎭 Иллюзия анонимности: открытое рецензирование и почерк Google 0:00

Статья была опубликована на платформе Open Review в режиме «двойного слепого» (double-blind) рецензирования для конференции ICLR. Подобный формат предполагает полную анонимность авторов, чтобы рецензенты могли беспристрастно оценить научную ценность работы. Однако, по ироничному замечанию Янника Килхера, скрыть реальное происхождение этого исследования практически невозможно.

Янник Килхер обращает внимание на поразительное сходство представленной работы с известным проектом Google Research под названием Big Transfer (BiT). Автор указывает на ряд неопровержимых совпадений, которые де-факто деанонимизируют публикацию:

Закрытые данные: Модель обучалась на гигантском датасете JFT-300M, содержащем 300 миллионов изображений. Этот датасет является интеллектуальной собственностью Google и недоступен широкой публике.
Идентичная методология: Обе модели тестировались на абсолютно одинаковом наборе бенчмарков, включая ImageNet, CIFAR-100, наборы данных Pets, Flowers и визуальный тест VTAB.
Визуальный стиль: Цветовые схемы графиков, стилистика гистограмм и даже специфический дизайн диаграмм (bubble plots) один в один повторяют визуальный стиль предыдущих публикаций Google.
Колоссальные бюджеты: Для обучения нейросети потребовалось 2,5 тысячи дней вычислений на TPU v3 (для сравнения, оригинальная модель BiT требовала 9,9 тысячи TPU-дней). Подобными вычислительными мощностями располагают лишь единичные ИТ-гиганты.

«Любой человек в мире мог бы случайно получить такое совпадение моделей, графиков и иметь лишние деньги на пару тысяч TPU-дней, — шутит Янник Килхер. — Не переживайте, процесс рецензирования в полной безопасности».

По мнению Килхера, идея полной анонимности на таких платформах, как arXiv или Open Review, в современных реалиях не работает и даже вредит индустрии. Он утверждает, что жесткие критерии анонимности лишь подыгрывают крупным лабораториям, поскольку читатели и рецензенты все равно без труда угадывают авторов по масштабу инфраструктуры, в то время как ученые лишаются прямой мотивации открыто заявлять о своих результатах.

🧱 Квадратичное проклятие: почему Трансформеры не дружили с картинками 5:13

Долгое время архитектура Transformers оставалась золотым стандартом исключительно в обработке естественного языка (NLP) — на ней построены такие модели, как BERT и семейство GPT. В компьютерном зрении безоговорочно доминировали сверточные нейросети (CNN), начиная с исторической AlexNet и заканчивая современными модификациями ResNet.

Главная сложность интеграции Трансформеров в сферу обработки изображений кроется в математической природе механизма внимания (self-attention). Полносвязное внимание — это квадратичная операция, обозначаемая как $O(N^2)$, где $N$ — длина последовательности.

Проблема масштабирования выглядит следующим образом:

В текстовых задачах Трансформер оперирует словами или токенами. Если длина абзаца составляет 500 токенов, модели необходимо рассчитать $500^2$ парных связей, что вполне реализуемо для современного оборудования.
Изображение представляет собой растр из огромного количества пикселей. Даже относительно небольшая картинка из базы ImageNet имеет разрешение около 250x250 пикселей.
Если попытаться скормить Трансформеру изображение попиксельно, чтобы каждый пиксель «взаимодействовал» с каждым, длина последовательности составит 62 500 элементов. Вычисление механизма внимания потребует $62500^2$ операций, что абсолютно нереализуемо даже на суперкомпьютерах Google.

Из-за этого вычислительного тупика исследователям ранее приходилось идти на компромиссы: внедрять локальное внимание (ограничивать область взаимодействия пикселей соседними зонами), что концептуально приближало Трансформеры к обычным сверткам и лишало их главного преимущества — способности видеть глобальный контекст всей картины сразу.

✂️ Разделяй и властвуй: анатомия Vision Transformer (ViT) 10:45

Авторы обсуждаемой статьи нашли элегантное и простое решение проблемы квадратичной сложности. Вместо того чтобы изобретать сложные формулы локального внимания для пикселей, они предложили делить изображение на небольшие квадратные блоки — патчи (patches).

Конструкция модели Vision Transformer включает несколько последовательных шагов:

Нарезка на патчи: Исходное изображение разбивается на сетку блоков размером 16x16 пикселей. Каждый такой патч фактически заменяет собой «слово» в понимании Трансформера.
Линейная проекция (Linear Projection): Каждый патч 16x16 разворачивается в одномерный вектор (длиной 256 элементов для монохромного изображения) и умножается на специальную матрицу эмбеддинга $E$. Это превращает визуальный блок в компактный вектор признаков, понятный сети.
Позиционное кодирование (Positional Embedding): Поскольку Трансформер по своей природе инвариантен к перестановкам и изначально не знает, в каком порядке идут элементы, к векторам патчей добавляются обучаемые позиционные маркеры. Исследователи протестировали сложные 2D-координаты, но выяснили, что простая нумерация патчей от 1 до $N$ работает так же эффективно.
Токен классификации (CLS-токен): По аналогии с текстовой моделью BERT, в самое начало последовательности патчей добавляется пустой обучаемый вектор-заглушка. Выходной сигнал именно этого компонента на финальном слое сети используется линейным классификатором для определения того, что изображено на картинке.

После этого сформированная последовательность передается в абсолютно стандартный, классический Трансформер, описанный в фундаментальной статье «Attention Is All You Need». Никаких специализированных архитектурных изменений для зрения внутрь самого Трансформера не вносилось.

📊 Результаты экспериментов и внутреннее устройство модели 16:02

Результаты тестов показывают, что Vision Transformer (ViT) превосходит передовые сверточные архитектуры на внушительную величину, требуя при этом заметно меньше ресурсов для предварительного обучения, чем гигантские CNN-модели аналогичного класса.

Исследователи представили три версии архитектуры: Base, Large и Huge. Модификация Huge содержит 32 слоя Трансформера и обладает огромным количеством параметров. Модель демонстрирует выдающуюся эффективность при переносе знаний (transfer learning): сначала она предобучается на закрытом датасете JFT-300M, а затем адаптируется под конкретные задачи, показывая превосходные результаты на тестовых выборках.

Анализ внутренних параметров обученной модели ViT выявил несколько любопытных феноменов:

Самообучение фильтрам: Визуализация первых слоев проекции показала, что Трансформер с нуля научился базовым фильтрам распознавания краев, текстур и цветовых градиентов. Нейросеть самостоятельно пришла к тем же механизмам, которые закладываются в сверточные сети архитектурно или использовались в классических вейвлет-фильтрах до эпохи глубокого обучения.
Понимание пространства: Позиционные эмбеддинги самостоятельно выстроились в логическую двумерную сетку. Модель без подсказок человека поняла пространственную структуру изображения, определив, какие патчи находятся в одной строке или в одном столбце.
Глобальный взгляд с первых секунд: График средней дистанции внимания (mean attention distance) демонстрирует, что уже на самых нижних слоях некоторые «головы» внимания (attention heads) способны охватывать взглядом абсолютно все изображение целиком. В традиционных CNN это невозможно: там зона видимости (receptive field) расширяется строго постепенно, от слоя к слою, по мере углубления в сеть.

🧠 Философия ИИ: великое противостояние индуктивного смещения и больших данных 20:55

В финальной части обзора Янник Килхер выходит на уровень философского осмысления того, почему Трансформеры начинают побеждать специализированные архитектуры. Ключевой термин этой дискуссии — индуктивное смещение (inductive prior / inductive bias).

Индуктивное смещение — это явные или неявные ограничения, которые разработчики закладывают в архитектуру модели, чтобы помочь ей быстрее учиться.

В сверточных сетях (CNN) таким смещением является гипотеза локальности: мы уверяем модель, что пиксель тесно связан со своими ближайшими соседями, а пространственные паттерны одинаковы в любой части кадра (инвариантность к сдвигу).
В рекуррентных сетях (LSTM) индуктивное смещение — это строгая последовательность: мы заставляем сеть читать текст слева направо, обновляя скрытое состояние шаг за шагом.

По мнению Янника Килхера, такие жесткие рамки спасают нейросети только в условиях дефицита данных. Однако любое человеческое смещение по определению является математическим искажением реальной картины мира (bias). Когда индустрия переходит в плоскость сверхбольших данных (как в случае с 300 млн изображений Google), жестко ограниченная модель начинает проигрывать гибкой архитектуре.

Килхер утверждает, что Трансформер — это не просто альтернативная нейросеть, а максимально универсальный вычислитель (general computer), который устроен даже более свободно, чем обычный полносвязный перцептрон (MLP), так как его веса вычисляются динамически «на лету» в зависимости от входных данных. Располагая колоссальными объемами информации, такой «универсальный компьютер» сам находит оптимальные взаимосвязи, которые оказываются точнее и эффективнее любых правил, придуманных человеком.

В качестве футуристического прогноза Янник Килхер предполагает, что следующим элементом, который исчезнет из архитектур нейросетей по мере дальнейшего масштабирования данных, станут остаточные связи (skip connections). Сейчас они критически важны для беспрепятственного прохождения градиента на глубоких слоях. Однако skip connections — это тоже навязанное индуктивное смещение, заставляющее слои вычислять лишь разницу (дельта) между входом и выходом. Килхер считает, что как только человечество перешагнет через очередной порядок объемов данных и поймет, как эффективно стабилизировать обучение без остаточных связей, ИИ сделает еще один гигантский шаг к полной архитектурной свободе.