FNet: как Google ускоряет sequence-модели без блоков внимания

Yannic Kilcher 30 тыс. 34 мин 3 мин 21.05.2021
Главное

FNet: Революция в смешивании токенов через преобразования Фурье 0:00

В индустрии глубокого обучения наметился тренд на переосмысление роли механизма внимания (attention mechanism), который долгое время оставался центральным элементом архитектуры Transformer. Янник Кильхер в своем обзоре статьи «FNet: Mixing Tokens with Fourier Transforms» анализирует инновационный подход исследователей из Google — Джеймса Ли Торпа, Джошуа Эйнсли, Ильи Экштейна и Сантьяго Антонио. Суть их работы заключается в попытке радикально упростить архитектуру sequence-моделей, заменив вычислительно затратные блоки внимания на быстрые и непараметризованные преобразования Фурье.

📉 Проблема квадратичной сложности внимания 0:26

Традиционный механизм внимания в моделях Transformer обладает серьезным ограничением: его вычислительная сложность и требования к памяти растут пропорционально квадрату длины последовательности $O(N^2)$.

⚙️ Архитектура FNet: Фурье вместо Attention 5:14

FNet сохраняет структуру Transformer (эмбеддинги, позиционное кодирование, слои нормализации), но заменяет блоки self-attention на слой преобразования Фурье.

💡 Идея смешивания токенов 11:16

По мнению Кильхера, главная заслуга авторов FNet не в самом преобразовании Фурье, а в акценте на важности «смешивания» (mixing) информации между токенами.

📊 Эксперименты и производительность 21:52

Сравнивая FNet с базовой моделью BERT, автор видео делает несколько выводов о реальной эффективности подхода.

Кильхер резюмирует, что эпоха, когда любая новая модель должна «бить SOTA» (state-of-the-art), сменяется эпохой поиска оптимальных компромиссов: FNet — отличный инструмент для задач, где важнее скорость и экономия ресурсов, а не предельная точность.

💬 Цитаты

«Мы вышли из эры «здесь новая SOTA» и вошли в эру «это работает почти так же хорошо, но быстрее».»

Янник Кильхер 22:06

«Преобразование Фурье было выбрано потому, что оно было легкодоступно в библиотеках, но это просто техника смешивания.»

Янник Кильхер 20:59
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Attention (Внимание)
Механизм, позволяющий модели динамически определять важность одних слов относительно других в последовательности.
Преобразование Фурье
Математический метод, разлагающий сигнал на сумму гармонических колебаний (синусоид) разных частот.
Sequence model
Тип нейронных сетей, предназначенный для обработки последовательностей данных (текст, аудио, временные ряды).
FFT (Fast Fourier Transform)
Быстрый алгоритм для вычисления преобразования Фурье, критически важный для производительности FNet.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект FNet Yannic Kilcher Transformer Fourier Transform Attention Mechanism