Янник Кильхер: «Expire-Span учит нейросети правильно забывать»

Yannic Kilcher 10,7 тыс. 41 мин 2 мин 24.05.2021
Главное

Инновационный механизм «забывания» в трансформерах: Expire-Span 0:00

Исследователи из Facebook AI Research представили метод Expire-Span, модифицирующий механизм внимания (attention mechanism) в трансформерах для более эффективной работы с длинными контекстами. Вместо того чтобы хранить все предыдущие токены, система обучается динамически определять «срок годности» каждой части информации, отсекая нерелевантные данные. Как отмечает Янник Кильхер, этот подход позволяет трансформерам масштабироваться на десятки тысяч временных шагов, значительно снижая вычислительные требования.

Суть механизма и «срок годности» воспоминаний 6:53

Традиционные трансформеры требуют квадратичных вычислительных затрат $O(N^2)$ при увеличении последовательности, так как каждый токен должен «смотреть» на все предыдущие. Expire-Span решает эту проблему, добавляя к каждому скрытому состоянию (hidden state) предсказание «длительности жизни» (expiration duration, $E$).

Математика обучения: мягкое маскирование 22:46

Поскольку дискретное удаление элементов из памяти не является дифференцируемым (что делает невозможным обучение через градиентный спуск), авторы применяют технику «мягкого маскирования» (soft masking).

  1. Для предсказания длительности памяти используется логистическая регрессия, выдающая значение от 0 до 1, умноженное на максимальный лимит $L$.
  2. Модель использует функцию потерь с $L1$-регуляризацией, которая поощряет «забывание» лишнего, удерживая размер памяти компактным.
  3. Обучающий сигнал (градиент) поступает только в узком диапазоне «спада» важности (гиперпараметр $R$), что, по мнению Кильхера, делает процесс обучения довольно капризным.

Ограничения и перспективы 11:00

Янник Кильхер выделяет как сильные, так и слабые стороны представленного решения.

В качестве дальнейшего развития идеи ведущий предлагает заменить линейное хранение памяти на структуру типа дерева, построенную на латентных переменных, что могло бы еще лучше структурировать поток воспоминаний.

💬 Цитаты

«Не все воспоминания созданы равными.»

Янник Кильхер 0:00

«Если всегда забывать, а потом что-то становится важным, вы уже не знаете, что было нужно запомнить.»

Янник Кильхер 28:10
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер
Архитектура нейросетей, использующая механизм внимания для обработки последовательностей данных.
Авторегрессионная модель
Тип модели, которая предсказывает следующий элемент последовательности, основываясь только на предыдущих.
Градиент
Вектор, указывающий направление, в котором нужно изменить параметры нейросети для улучшения её предсказаний.
Маскирование (Masking)
Метод ограничения доступа модели к определенным частям данных в матрице внимания.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Expire-Span Yannic Kilcher Transformer Attention Mechanism