∞-former: Как работает трансформер с «неограниченной» памятью

Yannic Kilcher 31,8 тыс. 36 мин 2 мин 06.09.2021
Главное

Исследование ∞-former: Трансформер с неограниченной памятью

0:00

Янник Килхер (Yannic Kilcher) анализирует научную работу, посвящённую ∞-former (Infinite Memory Transformer) — архитектуре, которая призвана решить главную проблему классических трансформеров: неспособность эффективно работать с длинными контекстами из-за квадратичного роста вычислительных затрат. Вместо дискретных сигналов авторы предлагают использовать непрерывное представление данных, что позволяет модели «сжимать» прошлый опыт в долгосрочную память и обращаться к ней без привязки к длине входной последовательности.

🧠 Концепция непрерывного внимания и сжатия 8:00

В основе ∞-former лежит отказ от хранения всех эмбеддингов токенов прошлого. Вместо этого модель преобразует дискретные сигналы в непрерывные.

⚙️ Роль эвристик и «липких воспоминаний» 29:11

Для управления памятью авторы ∞-former используют дополнительные методы, которые, по замечанию ведущего, напоминают классические модели LSTM (Long Short-Term Memory).

📊 Экспериментальные результаты 33:09

В тестах ∞-former сравнивался с существующими подходами, такими как Transformer-XL и Compressive Transformer.

💬 Цитаты

«Если у нас ограниченные вычисления, мы не можем упаковать бесконечную информацию внутрь.»

Янник Килхер 06:00

«В конечном итоге это концептуально не отличается от модели LSTM.»

Янник Килхер 07:40
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
∞-former
Архитектура трансформера, использующая непрерывные сигналы для моделирования неограниченной долгосрочной памяти.
Радиально-базисные функции (RBF)
Функции, значение которых зависит только от расстояния до центра, используются для аппроксимации сигналов.
Ridge Regression
Метод линейной регрессии с L2-регуляризацией, применяемый для сжатия эмбеддингов в ∞-former.
BPTT (Backpropagation Through Time)
Алгоритм обучения нейросетей, при котором ошибка распространяется назад через временные шаги, что затруднительно для длинных последовательностей.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект ∞-former Infinite Memory Transformer Yannic Kilcher Radial Basis Functions