# ∞-former: Как работает трансформер с «неограниченной» памятью

Источник: https://www.youtube.com/watch?v=0JlB9gufTw8
Канал: Yannic Kilcher
Опубликовано: 06.09.2021

---

# Исследование ∞-former: Трансформер с неограниченной памятью

[[JUMP:0:00]]

Янник Килхер (Yannic Kilcher) анализирует научную работу, посвящённую ∞-former (Infinite Memory Transformer) — архитектуре, которая призвана решить главную проблему классических трансформеров: неспособность эффективно работать с длинными контекстами из-за квадратичного роста вычислительных затрат. Вместо дискретных сигналов авторы предлагают использовать непрерывное представление данных, что позволяет модели «сжимать» прошлый опыт в долгосрочную память и обращаться к ней без привязки к длине входной последовательности.

## 🧠 Концепция непрерывного внимания и сжатия
[[JUMP:8:00]]

В основе ∞-former лежит отказ от хранения всех эмбеддингов токенов прошлого. Вместо этого модель преобразует дискретные сигналы в непрерывные.

*   **Механизм сжатия:** Каждое измерение вектора эмбеддинга рассматривается как точка на непрерывной плоскости. Модель строит интерполяцию этих точек, используя набор фиксированных радиально-базисных функций (RBF).
*   **Эффективность:** Поскольку RBF-функции не обучаются и остаются фиксированными, для представления сигнала требуется лишь небольшое количество весовых коэффициентов (матрица $B$). Это позволяет хранить долгосрочную память в виде компактного набора чисел, размер которого не зависит от длины исходной последовательности.
*   **Риски:** По мнению Килхера, здесь кроется фундаментальный компромисс: если у вас ограниченные вычислительные ресурсы, вы не можете упаковать бесконечную информацию в ограниченную память — приходится жертвовать её точностью.

## ⚙️ Роль эвристик и «липких воспоминаний»
[[JUMP:29:11]]

Для управления памятью авторы ∞-former используют дополнительные методы, которые, по замечанию ведущего, напоминают классические модели LSTM (Long Short-Term Memory).

*   **Непрерывное внимание:** Модель вычисляет распределение внимания в виде Гауссова окна, позволяя обращаться не к конкретным токенам, а к «областям» в долгосрочной памяти.
*   **Sticky Memories (Липкие воспоминания):** Это механизм динамической выборки, при котором модель «пересэмплирует» (over-sample) те части памяти, на которые чаще всего направлялось внимание.
*   **Критика:** Янник Килхер скептически относится к тому, что авторы называют это «неограниченной памятью». Он отмечает, что использование эвристик вместо обучения процессов сжатия (как это происходит в gated-механизмах LSTM) делает систему менее предсказуемой. Килхер считает, что отсутствие необходимости в обратном распространении ошибки по времени (BPTT) — это плюс, но цена — потенциальная потеря точности.

## 📊 Экспериментальные результаты
[[JUMP:33:09]]

В тестах ∞-former сравнивался с существующими подходами, такими как Transformer-XL и Compressive Transformer.

*   **Производительность:** Модель показывает результаты на одном уровне с Compressive Transformer, иногда незначительно превосходя его, особенно при использовании «липких воспоминаний».
*   **Позиция ведущего:** Килхер призывает относиться к этим результатам с долей осторожности. Из-за большого количества инженерных допущений и выбора гиперпараметров сложно однозначно сказать, является ли ∞-former принципиально лучшим решением, или же дело в удачной настройке конкретных компонентов.