Retentive Network: сможет ли линейная архитектура заменить Transformer?

Yannic Kilcher 103 тыс. 28 мин 2 мин 13.09.2023
Главное

Retentive Network: архитектурный прорыв или временный успех? 0:28

В мире больших языковых моделей (LLM) появился новый амбициозный игрок — Retentive Network (RetNet). Янник Килчер (Yannic Kilcher) в своем обзоре анализирует одноименную статью исследователей из Microsoft Research и Университета Цинхуа, которые заявляют, что создали архитектуру, превосходящую стандартный Transformer по всем ключевым параметрам: потреблению памяти GPU, пропускной способности, латентности и масштабируемости. По мнению Килчера, главный вопрос заключается в том, действительно ли эта архитектура «лучше во всем», или же за линейную природу модели приходится платить скрытыми компромиссами, которые еще предстоит выявить.

«Невозможное триединство» и линейность 2:31

Авторы RetNet утверждают, что им удалось разрешить так называемое «невозможное триединство» (impossible triangle), объединив в одной модели три характеристики:

2:45

Традиционный Transformer, по словам Килчера, обладает мощным механизмом внимания, позволяющим каждому токену «видеть» все предыдущие, что дает преимущество в параллельном обучении. Однако использование функции softmax создает квадратичную сложность, из-за которой при инференсе требуется хранить огромные объемы данных (KV-кэш).

Ключевая идея RetNet заключается в отказе от softmax. Делая архитектуру линейной, разработчики получают возможность переключаться между двумя режимами:

7:11

  1. Параллельная форма: аналогично Transformer, позволяет использовать всю последовательность как обучающий пример.
  2. Рекуррентная форма: позволяет накапливать информацию в буфере фиксированного размера, что делает инференс крайне экономичным.

Механика работы: от теории к практике 16:06

Архитектурно RetNet напоминает Transformer, где многоголовое внимание (multi-head attention) заменено на мультимасштабное удержание (multi-scale retention). Основные технические особенности:

Перспективы и скепсис 26:40

Килчер отмечает, что экспериментальные результаты выглядят многообещающе — RetNet стабильно обходит Transformer в задачах языкового моделирования. Однако он выражает сдержанность:

С точки зрения автора видео, RetNet является крайне интересным объектом для оптимизации, так как всё, что можно выразить линейно, открывает огромные возможности для аппаратных ускорений, недоступных для сложных нелинейных архитектур.

💬 Цитаты

«Это новый претендент в городе. Он использует меньше памяти GPU, у него выше пропускная способность, ниже задержка, и он лучше масштабируется, чем трансформеры.»

Янник Килчер 0:28

«Поскольку всё линейно, мы можем Claim: мы одновременно и рекуррентная сеть, и параллельная сеть.»

Янник Килчер 14:47
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Softmax
Математическая функция, используемая в архитектуре Transformer для преобразования чисел в вероятности, которая создает квадратичную вычислительную сложность.
KV-кэш
Метод кэширования ключей и значений в памяти при инференсе трансформеров, необходимый для генерации текста.
Инференс
Процесс использования уже обученной нейросети для получения предсказаний или генерации контента.
Causal mask
Метод, запрещающий модели «подглядывать» в будущее при обработке последовательности токенов.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Retentive Network Transformer LLM Microsoft Research инференс