Янник Кильхер о модели RWKV: «Это, по сути, большая конволюционная сеть»

Yannic Kilcher 81,5 тыс. 1 ч 2 мин 2 мин 02.06.2023
Главное

Инновационная архитектура RWKV: реинжиниринг RNN для эпохи Transformer 0:00

Модель RWKV представляет собой смелую попытку объединить сильные стороны трансформеров и рекуррентных нейронных сетей (RNN), предлагая архитектуру, которая масштабируется как трансформер, но при этом обладает вычислительной эффективностью RNN. Янник Кильхер в своем разборе отмечает, что проект примечателен своей компактностью: он был разработан крайне малочисленной группой исследователей, при этом результаты модели в ряде задач сопоставимы с гигантскими корпоративными трансформерами.

🏗 Архитектура: трансформер или конволюционная сеть? 8:11

Хотя авторы RWKV часто противопоставляют ее трансформерам, Кильхер утверждает, что правильнее всего рассматривать эту модель как конволюционную нейронную сеть, работающую вдоль одномерной последовательности токенов.

Кильхер отмечает, что термин «внимание» здесь используется крайне вольно, так как механизм существенно отличается от оригинального динамического распределения весов.

🛠 Механизмы взаимодействия: Time Mixing и Channel Mixing 31:49

Модель строится из повторяющихся блоков, каждый из которых состоит из двух основных модулей:

  1. Channel Mixing (Канальное смешивание): Напоминает классические полносвязные слои (feed-forward). На вход поступает сигнал $x$, который умножается на весовые матрицы для получения ключей $K$ и значений $V$. Результат пропускается через нелинейность (квадратичная функция ReLU) и умножается на «забывающий гейт» (forget gate), управляемый сигмоидой.
  2. Time Mixing (Временное смешивание): Именно здесь происходит работа с историей. В отличие от стандартных RNN, где скрытое состояние проходит через множество нелинейностей, RWKV использует линейное накопление прошлого.

Особую роль играет метод token shift, при котором модель линейно интерполирует входные данные текущего и предыдущего шагов. Кильхер подчеркивает, что отсутствие нелинейностей в процессе агрегации прошлого позволяет модели вычислять всё как «большую сумму», что и делает возможным параллельное обучение.

💡 Ограничения и прогнозы 56:16

Несмотря на эффективность, RWKV имеет свои минусы, о которых открыто говорят авторы архитектуры:

В заключение Кильхер отмечает, что на текущий момент RWKV — это «самая слабая» из форм памяти в сравнении с трансформерами, но за счет возможности глубокого стекинга слоев эта слабость может быть нивелирована при достаточном масштабировании.

💬 Цитаты

«Я пришел к выводу, что это скорее сверточная сеть, чем трансформер или RNN.»

Янник Кильхер 08:11

«RWKV объединяет эффективное параллельное обучение трансформеров с эффективным инференсом RNN.»

Янник Кильхер 09:06
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Causal attention
Механизм внимания, при котором каждый токен может смотреть только на предыдущие токены в последовательности.
Vanishing gradient
Проблема обучения нейросетей, при которой градиенты становятся слишком малыми, что мешает обновлению весов в ранних слоях.
Token shift
Техника интерполяции входных данных текущего и предыдущего шагов для повышения связности контекста.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект RWKV Yannic Kilcher Transformer RNN Cuda