Янник Кильхер: «MLP-Mixer — простая альтернатива трансформерам?»

Yannic Kilcher 48,4 тыс. 28 мин 2 мин 06.05.2021
Главное

MLP-Mixer: Архитектурная простота в эпоху гигантов 0:01

В мире компьютерного зрения, где доминируют сложные механизмы внимания и тяжеловесные сверточные нейронные сети (CNN), исследователи из Google Research представили альтернативный подход — MLP-Mixer. Как отмечает Янник Кильхер, это архитектура, полностью построенная на многослойных перцептронах (MLP), которая отказывается от привычных сверток и механизмов внимания (attention), полагаясь исключительно на матричные умножения, нелинейности и нормализацию. По словам Кильхера, работа является отличным уроком того, как «старые» идеи могут обрести вторую жизнь при правильном масштабировании.

🏗 Как устроена «смешивающая» архитектура 2:26

В основе MLP-Mixer лежит принцип обработки данных, схожий с Vision Transformer: изображение разбивается на фиксированные патчи (например, 16x16 пикселей), которые затем преобразуются в векторы латентных представлений. Однако «магия» происходит внутри слоев миксера (mixer layers):

Кильхер подчеркивает, что эта двухэтапная процедура повторяется несколько раз, позволяя модели эффективно агрегировать информацию как пространственно (по патчам), так и семантически (по каналам). Важной особенностью здесь является разделение весов: операции эффективно используют общие весовые матрицы, что делает архитектуру вычислительно легкой.

📈 Масштабируемость и производительность 13:29

Главное преимущество MLP-Mixer перед Vision Transformer заключается в линейной зависимости сложности от количества патчей, тогда как механизм внимания требует квадратичных затрат вычислительных ресурсов.

Основные выводы из экспериментов, представленных в статье:

🧐 Философский вопрос: в чем секрет успеха? 21:53

Видео поднимает глубокий вопрос: является ли успех таких архитектур следствием их дизайна или просто триумфом масштабирования (Scale)?

💬 Цитаты

«Это не будет долгое видео, потому что концепция довольно простая.»

Янник Кильхер 00:13

«Если вы хотите что-то опубликовать, найдите метрику, в которой вы выигрываете.»

Янник Кильхер 15:55

«Её преимущество в том, что она простая, а значит, хорошо масштабируется.»

Янник Кильхер 27:44
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
MLP (Multi-Layer Perceptron)
Многослойный перцептрон — базовая модель нейронной сети, состоящая из слоев нейронов с нелинейными функциями активации.
Vision Transformer (ViT)
Архитектура нейронных сетей для обработки изображений, основанная на механизмах внимания (attention).
Patch
Фрагмент изображения, полученный путем разбиения картинки на блоки фиксированного размера.
Inductive bias
Набор предположений, которые модель делает для облегчения обучения на основе имеющихся данных (например, свертки предполагают локальность признаков).
Throughput
Пропускная способность модели, измеряемая в количестве обработанных изображений в секунду.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект MLP-Mixer Google Research Vision Transformer Deep Learning Computer Vision