# Retentive Network: сможет ли линейная архитектура заменить Transformer?

Источник: https://www.youtube.com/watch?v=ec56a8wmfRk
Канал: Yannic Kilcher
Опубликовано: 13.09.2023

---

## Retentive Network: архитектурный прорыв или временный успех?
[[JUMP:0:28]]

В мире больших языковых моделей (LLM) появился новый амбициозный игрок — Retentive Network (RetNet). Янник Килчер (Yannic Kilcher) в своем обзоре анализирует одноименную статью исследователей из Microsoft Research и Университета Цинхуа, которые заявляют, что создали архитектуру, превосходящую стандартный Transformer по всем ключевым параметрам: потреблению памяти GPU, пропускной способности, латентности и масштабируемости. По мнению Килчера, главный вопрос заключается в том, действительно ли эта архитектура «лучше во всем», или же за линейную природу модели приходится платить скрытыми компромиссами, которые еще предстоит выявить.

## «Невозможное триединство» и линейность
[[JUMP:2:31]]

Авторы RetNet утверждают, что им удалось разрешить так называемое «невозможное триединство» (impossible triangle), объединив в одной модели три характеристики:
[[JUMP:2:45]]

*   **Эффективность инференса (low-cost inference):** отсутствие квадратичного роста потребления памяти при увеличении длины последовательности.
*   **Параллелизм при обучении (training parallelism):** возможность обучать модель на всей последовательности одновременно, а не по одному токену.
*   **Высокая производительность (strong performance):** экспериментально подтвержденные результаты, сопоставимые или превосходящие Transformer.

Традиционный Transformer, по словам Килчера, обладает мощным механизмом внимания, позволяющим каждому токену «видеть» все предыдущие, что дает преимущество в параллельном обучении. Однако использование функции `softmax` создает квадратичную сложность, из-за которой при инференсе требуется хранить огромные объемы данных (KV-кэш).

Ключевая идея RetNet заключается в отказе от `softmax`. Делая архитектуру линейной, разработчики получают возможность переключаться между двумя режимами:
[[JUMP:7:11]]

1.  **Параллельная форма:** аналогично Transformer, позволяет использовать всю последовательность как обучающий пример.
2.  **Рекуррентная форма:** позволяет накапливать информацию в буфере фиксированного размера, что делает инференс крайне экономичным.

## Механика работы: от теории к практике
[[JUMP:16:06]]

Архитектурно RetNet напоминает Transformer, где многоголовое внимание (multi-head attention) заменено на мультимасштабное удержание (multi-scale retention). Основные технические особенности:

*   **Causal Mask с затуханием:** в отличие от классической «каузальной маски», здесь используется скалярный коэффициент затухания `gamma`, который уменьшает влияние старых токенов по мере удаления от текущего.
*   **Гейтированное мультимасштабное удержание:** авторы применяют разные коэффициенты затухания для разных «голов» внимания. Это позволяет одним частям модели фокусироваться на недавнем контексте, а другим — удерживать в памяти всю последовательность.
*   **Chunk-wise рекурсия:** модель делит длинные последовательности на фрагменты (chunks), комбинируя рекуррентный подход (накопление в буфере) для далекого прошлого и параллельный режим для текущего сегмента.

## Перспективы и скепсис
[[JUMP:26:40]]

Килчер отмечает, что экспериментальные результаты выглядят многообещающе — RetNet стабильно обходит Transformer в задачах языкового моделирования. Однако он выражает сдержанность:

*   **Масштаб экспериментов:** хотя размеры моделей значительны, они все еще не достигают масштабов «триллионных» моделей, используемых в индустрии.
*   **Линейность как компромисс:** по мнению Килчера, отказ от нелинейности `softmax` может быть как преимуществом, так и ограничением. Он предполагает, что со временем будут обнаружены задачи, где RetNet будет уступать Transformer, несмотря на текущие «фантастические» показатели.

С точки зрения автора видео, RetNet является крайне интересным объектом для оптимизации, так как всё, что можно выразить линейно, открывает огромные возможности для аппаратных ускорений, недоступных для сложных нелинейных архитектур.