Retentive Network: сможет ли линейная архитектура заменить Transformer?

Retentive Network: архитектурный прорыв или временный успех? 0:28

В мире больших языковых моделей (LLM) появился новый амбициозный игрок — Retentive Network (RetNet). Янник Килчер (Yannic Kilcher) в своем обзоре анализирует одноименную статью исследователей из Microsoft Research и Университета Цинхуа, которые заявляют, что создали архитектуру, превосходящую стандартный Transformer по всем ключевым параметрам: потреблению памяти GPU, пропускной способности, латентности и масштабируемости. По мнению Килчера, главный вопрос заключается в том, действительно ли эта архитектура «лучше во всем», или же за линейную природу модели приходится платить скрытыми компромиссами, которые еще предстоит выявить.

«Невозможное триединство» и линейность 2:31

Авторы RetNet утверждают, что им удалось разрешить так называемое «невозможное триединство» (impossible triangle), объединив в одной модели три характеристики:

2:45

Эффективность инференса (low-cost inference): отсутствие квадратичного роста потребления памяти при увеличении длины последовательности.
Параллелизм при обучении (training parallelism): возможность обучать модель на всей последовательности одновременно, а не по одному токену.
Высокая производительность (strong performance): экспериментально подтвержденные результаты, сопоставимые или превосходящие Transformer.

Традиционный Transformer, по словам Килчера, обладает мощным механизмом внимания, позволяющим каждому токену «видеть» все предыдущие, что дает преимущество в параллельном обучении. Однако использование функции softmax создает квадратичную сложность, из-за которой при инференсе требуется хранить огромные объемы данных (KV-кэш).

Ключевая идея RetNet заключается в отказе от softmax. Делая архитектуру линейной, разработчики получают возможность переключаться между двумя режимами:

7:11

Параллельная форма: аналогично Transformer, позволяет использовать всю последовательность как обучающий пример.
Рекуррентная форма: позволяет накапливать информацию в буфере фиксированного размера, что делает инференс крайне экономичным.

Механика работы: от теории к практике 16:06

Архитектурно RetNet напоминает Transformer, где многоголовое внимание (multi-head attention) заменено на мультимасштабное удержание (multi-scale retention). Основные технические особенности:

Causal Mask с затуханием: в отличие от классической «каузальной маски», здесь используется скалярный коэффициент затухания gamma, который уменьшает влияние старых токенов по мере удаления от текущего.
Гейтированное мультимасштабное удержание: авторы применяют разные коэффициенты затухания для разных «голов» внимания. Это позволяет одним частям модели фокусироваться на недавнем контексте, а другим — удерживать в памяти всю последовательность.
Chunk-wise рекурсия: модель делит длинные последовательности на фрагменты (chunks), комбинируя рекуррентный подход (накопление в буфере) для далекого прошлого и параллельный режим для текущего сегмента.

Перспективы и скепсис 26:40

Килчер отмечает, что экспериментальные результаты выглядят многообещающе — RetNet стабильно обходит Transformer в задачах языкового моделирования. Однако он выражает сдержанность:

Масштаб экспериментов: хотя размеры моделей значительны, они все еще не достигают масштабов «триллионных» моделей, используемых в индустрии.
Линейность как компромисс: по мнению Килчера, отказ от нелинейности softmax может быть как преимуществом, так и ограничением. Он предполагает, что со временем будут обнаружены задачи, где RetNet будет уступать Transformer, несмотря на текущие «фантастические» показатели.

С точки зрения автора видео, RetNet является крайне интересным объектом для оптимизации, так как всё, что можно выразить линейно, открывает огромные возможности для аппаратных ускорений, недоступных для сложных нелинейных архитектур.