Исследование ∞-former: Трансформер с неограниченной памятью
Янник Килхер (Yannic Kilcher) анализирует научную работу, посвящённую ∞-former (Infinite Memory Transformer) — архитектуре, которая призвана решить главную проблему классических трансформеров: неспособность эффективно работать с длинными контекстами из-за квадратичного роста вычислительных затрат. Вместо дискретных сигналов авторы предлагают использовать непрерывное представление данных, что позволяет модели «сжимать» прошлый опыт в долгосрочную память и обращаться к ней без привязки к длине входной последовательности.
🧠 Концепция непрерывного внимания и сжатия 8:00
В основе ∞-former лежит отказ от хранения всех эмбеддингов токенов прошлого. Вместо этого модель преобразует дискретные сигналы в непрерывные.
- Механизм сжатия: Каждое измерение вектора эмбеддинга рассматривается как точка на непрерывной плоскости. Модель строит интерполяцию этих точек, используя набор фиксированных радиально-базисных функций (RBF).
- Эффективность: Поскольку RBF-функции не обучаются и остаются фиксированными, для представления сигнала требуется лишь небольшое количество весовых коэффициентов (матрица $B$). Это позволяет хранить долгосрочную память в виде компактного набора чисел, размер которого не зависит от длины исходной последовательности.
- Риски: По мнению Килхера, здесь кроется фундаментальный компромисс: если у вас ограниченные вычислительные ресурсы, вы не можете упаковать бесконечную информацию в ограниченную память — приходится жертвовать её точностью.
⚙️ Роль эвристик и «липких воспоминаний» 29:11
Для управления памятью авторы ∞-former используют дополнительные методы, которые, по замечанию ведущего, напоминают классические модели LSTM (Long Short-Term Memory).
- Непрерывное внимание: Модель вычисляет распределение внимания в виде Гауссова окна, позволяя обращаться не к конкретным токенам, а к «областям» в долгосрочной памяти.
- Sticky Memories (Липкие воспоминания): Это механизм динамической выборки, при котором модель «пересэмплирует» (over-sample) те части памяти, на которые чаще всего направлялось внимание.
- Критика: Янник Килхер скептически относится к тому, что авторы называют это «неограниченной памятью». Он отмечает, что использование эвристик вместо обучения процессов сжатия (как это происходит в gated-механизмах LSTM) делает систему менее предсказуемой. Килхер считает, что отсутствие необходимости в обратном распространении ошибки по времени (BPTT) — это плюс, но цена — потенциальная потеря точности.
📊 Экспериментальные результаты 33:09
В тестах ∞-former сравнивался с существующими подходами, такими как Transformer-XL и Compressive Transformer.
- Производительность: Модель показывает результаты на одном уровне с Compressive Transformer, иногда незначительно превосходя его, особенно при использовании «липких воспоминаний».
- Позиция ведущего: Килхер призывает относиться к этим результатам с долей осторожности. Из-за большого количества инженерных допущений и выбора гиперпараметров сложно однозначно сказать, является ли ∞-former принципиально лучшим решением, или же дело в удачной настройке конкретных компонентов.