Янник Килхер: «Трансформеры — это самые универсальные вычислители»

Yannic Kilcher 390 тыс. 29 мин 7 мин 04.10.2020
Главное

В области искусственного интеллекта происходит очередная смена парадигм: архитектура Transformers, изначально созданная для обработки текста, начинает вытеснять классические сверточные нейросети из сферы компьютерного зрения. Известный ИИ-исследователь и блогер Янник Килхер (Yannic Kilcher) подробно разобрал резонансную научную статью «An Image is Worth 16x16 Words», которая закладывает основу для этого технологического сдвига. Автор анализирует не только техническую сторону архитектуры Vision Transformer (ViT), но и поднимает важные вопросы о прозрачности современного процесса рецензирования научных публикаций.

🎭 Иллюзия анонимности: открытое рецензирование и почерк Google 0:00

Статья была опубликована на платформе Open Review в режиме «двойного слепого» (double-blind) рецензирования для конференции ICLR. Подобный формат предполагает полную анонимность авторов, чтобы рецензенты могли беспристрастно оценить научную ценность работы. Однако, по ироничному замечанию Янника Килхера, скрыть реальное происхождение этого исследования практически невозможно.

Янник Килхер обращает внимание на поразительное сходство представленной работы с известным проектом Google Research под названием Big Transfer (BiT). Автор указывает на ряд неопровержимых совпадений, которые де-факто деанонимизируют публикацию:

«Любой человек в мире мог бы случайно получить такое совпадение моделей, графиков и иметь лишние деньги на пару тысяч TPU-дней, — шутит Янник Килхер. — Не переживайте, процесс рецензирования в полной безопасности».

По мнению Килхера, идея полной анонимности на таких платформах, как arXiv или Open Review, в современных реалиях не работает и даже вредит индустрии. Он утверждает, что жесткие критерии анонимности лишь подыгрывают крупным лабораториям, поскольку читатели и рецензенты все равно без труда угадывают авторов по масштабу инфраструктуры, в то время как ученые лишаются прямой мотивации открыто заявлять о своих результатах.

🧱 Квадратичное проклятие: почему Трансформеры не дружили с картинками 5:13

Долгое время архитектура Transformers оставалась золотым стандартом исключительно в обработке естественного языка (NLP) — на ней построены такие модели, как BERT и семейство GPT. В компьютерном зрении безоговорочно доминировали сверточные нейросети (CNN), начиная с исторической AlexNet и заканчивая современными модификациями ResNet.

Главная сложность интеграции Трансформеров в сферу обработки изображений кроется в математической природе механизма внимания (self-attention). Полносвязное внимание — это квадратичная операция, обозначаемая как $O(N^2)$, где $N$ — длина последовательности.

Проблема масштабирования выглядит следующим образом:

  1. В текстовых задачах Трансформер оперирует словами или токенами. Если длина абзаца составляет 500 токенов, модели необходимо рассчитать $500^2$ парных связей, что вполне реализуемо для современного оборудования.
  2. Изображение представляет собой растр из огромного количества пикселей. Даже относительно небольшая картинка из базы ImageNet имеет разрешение около 250x250 пикселей.
  3. Если попытаться скормить Трансформеру изображение попиксельно, чтобы каждый пиксель «взаимодействовал» с каждым, длина последовательности составит 62 500 элементов. Вычисление механизма внимания потребует $62500^2$ операций, что абсолютно нереализуемо даже на суперкомпьютерах Google.

Из-за этого вычислительного тупика исследователям ранее приходилось идти на компромиссы: внедрять локальное внимание (ограничивать область взаимодействия пикселей соседними зонами), что концептуально приближало Трансформеры к обычным сверткам и лишало их главного преимущества — способности видеть глобальный контекст всей картины сразу.

✂️ Разделяй и властвуй: анатомия Vision Transformer (ViT) 10:45

Авторы обсуждаемой статьи нашли элегантное и простое решение проблемы квадратичной сложности. Вместо того чтобы изобретать сложные формулы локального внимания для пикселей, они предложили делить изображение на небольшие квадратные блоки — патчи (patches).

Конструкция модели Vision Transformer включает несколько последовательных шагов:

После этого сформированная последовательность передается в абсолютно стандартный, классический Трансформер, описанный в фундаментальной статье «Attention Is All You Need». Никаких специализированных архитектурных изменений для зрения внутрь самого Трансформера не вносилось.

📊 Результаты экспериментов и внутреннее устройство модели 16:02

Результаты тестов показывают, что Vision Transformer (ViT) превосходит передовые сверточные архитектуры на внушительную величину, требуя при этом заметно меньше ресурсов для предварительного обучения, чем гигантские CNN-модели аналогичного класса.

Исследователи представили три версии архитектуры: Base, Large и Huge. Модификация Huge содержит 32 слоя Трансформера и обладает огромным количеством параметров. Модель демонстрирует выдающуюся эффективность при переносе знаний (transfer learning): сначала она предобучается на закрытом датасете JFT-300M, а затем адаптируется под конкретные задачи, показывая превосходные результаты на тестовых выборках.

Анализ внутренних параметров обученной модели ViT выявил несколько любопытных феноменов:

🧠 Философия ИИ: великое противостояние индуктивного смещения и больших данных 20:55

В финальной части обзора Янник Килхер выходит на уровень философского осмысления того, почему Трансформеры начинают побеждать специализированные архитектуры. Ключевой термин этой дискуссии — индуктивное смещение (inductive prior / inductive bias).

Индуктивное смещение — это явные или неявные ограничения, которые разработчики закладывают в архитектуру модели, чтобы помочь ей быстрее учиться.

По мнению Янника Килхера, такие жесткие рамки спасают нейросети только в условиях дефицита данных. Однако любое человеческое смещение по определению является математическим искажением реальной картины мира (bias). Когда индустрия переходит в плоскость сверхбольших данных (как в случае с 300 млн изображений Google), жестко ограниченная модель начинает проигрывать гибкой архитектуре.

Килхер утверждает, что Трансформер — это не просто альтернативная нейросеть, а максимально универсальный вычислитель (general computer), который устроен даже более свободно, чем обычный полносвязный перцептрон (MLP), так как его веса вычисляются динамически «на лету» в зависимости от входных данных. Располагая колоссальными объемами информации, такой «универсальный компьютер» сам находит оптимальные взаимосвязи, которые оказываются точнее и эффективнее любых правил, придуманных человеком.

В качестве футуристического прогноза Янник Килхер предполагает, что следующим элементом, который исчезнет из архитектур нейросетей по мере дальнейшего масштабирования данных, станут остаточные связи (skip connections). Сейчас они критически важны для беспрепятственного прохождения градиента на глубоких слоях. Однако skip connections — это тоже навязанное индуктивное смещение, заставляющее слои вычислять лишь разницу (дельта) между входом и выходом. Килхер считает, что как только человечество перешагнет через очередной порядок объемов данных и поймет, как эффективно стабилизировать обучение без остаточных связей, ИИ сделает еще один гигантский шаг к полной архитектурной свободе.

💬 Цитаты

«Любой человек в мире мог бы случайно получить такое совпадение моделей, графиков и иметь лишние деньги на пару тысяч TPU-дней. Не переживайте, процесс рецензирования в полной безопасности»

Янник Килхер 02:39

«Трансформер — это вроде как самый общий инструмент из всех, что у нас сейчас есть в глубоком обучении, который мы способны успешно обучать»

Янник Килхер 25:40
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Vision Transformer (ViT)
Архитектура нейросетей, адаптирующая классический текстовый Трансформер для задач компьютерного зрения с помощью разбиения картинок на блоки-патчи.
Индуктивное смещение (Inductive Bias)
Предустановленные математические ограничения или допущения, закладываемые человеком в структуру нейросети для облегчения ее обучения.
Механизм внимания (Self-Attention)
Операция в нейросетях, позволяющая динамически оценивать степень важности и взаимосвязи между всеми элементами входной последовательности.
Остаточные связи (Skip Connections)
Архитектурный прием в глубоких сетях, при котором исходный сигнал передается напрямую через один или несколько слоев в обход преобразований для стабилизации градиента.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Vision Transformer Янник Килхер Google Research Индуктивное смещение