# Янник Кильхер: «Expire-Span учит нейросети правильно забывать»

Источник: https://www.youtube.com/watch?v=2PYLNHqxd5A
Канал: Yannic Kilcher
Опубликовано: 24.05.2021

---

## Инновационный механизм «забывания» в трансформерах: Expire-Span
[[JUMP:0:00]]

Исследователи из Facebook AI Research представили метод **Expire-Span**, модифицирующий механизм внимания (attention mechanism) в трансформерах для более эффективной работы с длинными контекстами. Вместо того чтобы хранить все предыдущие токены, система обучается динамически определять «срок годности» каждой части информации, отсекая нерелевантные данные. Как отмечает Янник Кильхер, этот подход позволяет трансформерам масштабироваться на десятки тысяч временных шагов, значительно снижая вычислительные требования.

### Суть механизма и «срок годности» воспоминаний
[[JUMP:6:53]]

Традиционные трансформеры требуют квадратичных вычислительных затрат $O(N^2)$ при увеличении последовательности, так как каждый токен должен «смотреть» на все предыдущие. Expire-Span решает эту проблему, добавляя к каждому скрытому состоянию (hidden state) предсказание «длительности жизни» (expiration duration, $E$).

*   На каждом временном шаге модель генерирует скрытое состояние и число $E$, определяющее, сколько шагов этот фрагмент данных будет оставаться в памяти.
*   Если $E$ истекает, токен исключается из механизма внимания, что превращает квадратичную сложность в $O(N \times M)$, где $M$ — размер активной памяти.
*   В отличие от методов с фиксированным окном внимания, здесь система сама решает, насколько долго «помнить» конкретный элемент — от мгновенного забвения до тысяч шагов.

### Математика обучения: мягкое маскирование
[[JUMP:22:46]]

Поскольку дискретное удаление элементов из памяти не является дифференцируемым (что делает невозможным обучение через градиентный спуск), авторы применяют технику «мягкого маскирования» (soft masking).

1.  Для предсказания длительности памяти используется логистическая регрессия, выдающая значение от 0 до 1, умноженное на максимальный лимит $L$.
2.  Модель использует функцию потерь с $L1$-регуляризацией, которая поощряет «забывание» лишнего, удерживая размер памяти компактным.
3.  Обучающий сигнал (градиент) поступает только в узком диапазоне «спада» важности (гиперпараметр $R$), что, по мнению Кильхера, делает процесс обучения довольно капризным.

### Ограничения и перспективы
[[JUMP:11:00]]

Янник Кильхер выделяет как сильные, так и слабые стороны представленного решения.

*   **Проблема «будущего»:** Система принимает решение об «истечении» информации в момент её появления. Она не может передумать, если в будущем эта информация внезапно окажется критически важной.
*   **Сравнение с LSTM:** Это промежуточное решение между трансформером (помнит всё или ничего) и LSTM (динамически обновляемое состояние). Кильхер предполагает, что можно добавить возможность «освежения» памяти, если контекст показывает важность старых данных.
*   **Эффективность на задачах:** В экспериментах, например, в «задаче коридора» с подкреплением, Expire-Span успешно выделяет ключевые признаки, игнорируя шум. Кильхер считает, что для успеха метода важно, чтобы данные в обучающей выборке имели естественное распределение важности на разных дистанциях.

В качестве дальнейшего развития идеи ведущий предлагает заменить линейное хранение памяти на структуру типа дерева, построенную на латентных переменных, что могло бы еще лучше структурировать поток воспоминаний.