Янник Килчер о методе ALiBi: «Трансформеры теперь могут работать с текстами в 10 раз длиннее»

Yannic Kilcher 22,3 тыс. 31 мин 4 мин 02.09.2021
Главное

В области машинного обучения одной из наиболее острых проблем остается ограничение длины входных данных для трансформеров. Традиционные модели, такие как GPT, часто «ломаются», как только длина текста при генерации или анализе превышает ту, на которой они обучались. В новом видео Янник Килчер разбирает научную работу «Train Short, Test Long: Attention with linear biases enables input length extrapolation», авторы которой предложили элегантное и простое решение под названием ALiBi. Этот метод позволяет нейросетям успешно работать с последовательностями, которые в 2–10 раз длиннее тренировочных, без потери качества и значительных вычислительных затрат.

🧠 Проблема позиционного кодирования в трансформерах 1:43

Трансформеры, представленные в 2017 году в статье «Attention is all you need», фундаментально не являются моделями последовательностей — они работают с наборами (сетами) данных . Если подать в модель предложение без дополнительных меток, она не поймет, в каком порядке идут слова. Янник поясняет, что для механизма внимания (attention) не имеет значения, стоит слово в начале или в конце предложения, если у него один и тот же «ключ» (key) .

Чтобы решить эту проблему, разработчики используют позиционное кодирование:

🚀 Метод ALiBi: линейное смещение внимания 11:00

Метод ALiBi (Attention with Linear Biases) предлагает радикально сменить подход. Вместо того чтобы добавлять информацию о позиции к самим векторам слов (эмбеддингам), авторы решили воздействовать напрямую на механизм внимания, используя фиксированное линейное смещение .

Суть метода заключается в следующем:

  1. Инъекция в Query и Key: Позиционная информация не добавляется к значениям (Values), которые передаются между слоями, а вводится только в момент вычисления матрицы внимания между запросами (Queries) и ключами (Keys) .
  2. Линейное «наказание» за расстояние: В процессе вычисления внимания из результата перемножения вектора запроса и ключа вычитается значение, пропорциональное расстоянию между ними .
  3. Логарифмическая логика: Янник поясняет, что вычитание в лог-пространстве (так как далее следует Softmax) эквивалентно делению на константу. Таким образом, модель просто принудительно «забывает» или придает меньше веса тем токенам, которые находятся далеко в прошлом .

📉 Разные наклоны (slopes) для разных голов внимания 20:05

Одной из «изюминок» метода является использование разных коэффициентов смещения ($m$) для каждой головы внимания в трансформере. Авторы предложили использовать геометрическую прогрессию для выбора этих коэффициентов (например, 1/2, 1/4, 1/8 и т.д. для 8 голов) .

По мнению Янника Килчера, это отличное решение, так как:

📊 Результаты испытаний и экстраполяция 23:52

В экспериментах на наборе данных WikiText ALiBi показал превосходство над классическими методами. Модели, обученные на коротких последовательностях (например, 512 токенов), при тестировании на 1024 токенах и более сохраняли низкую перплексию (метрика качества предсказания текста), в то время как синусоидальные и роторные (Rotary) эмбеддинги немедленно выходили из строя .

Ключевые выводы экспериментов:

💬 Мнение автора и перспективы 29:53

Янник Килчер оценивает работу как «очень простую и крутую», подчеркивая, что именно простота может стать ключом к массовому внедрению ALiBi . Однако он высказывает следующие сомнения и пожелания:

💬 Цитаты

«Трансформер фактически имеет дело с входной последовательностью как с набором (set), а не последовательностью.»

Янник Килчер 03:27

«Простота может быть ключом к успеху. Код доступен, и если вы внедряете трансформеры — попробуйте ALiBi.»

Янник Килчер 31:10
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Перплексия
Метрика, оценивающая, насколько хорошо модель предсказывает выборку; чем она ниже, тем качественнее модель.
Авторегрессионная модель
Тип модели, который предсказывает следующий элемент последовательности на основе всех предыдущих.
Query, Key, Value
Три вектора в механизме внимания трансформера, отвечающие за поиск и передачу информации между токенами.
Экстраполяция
Способность модели работать с данными (в данном случае длиной текста), выходящими за рамки тренировочного диапазона.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект ALiBi Attention with linear biases Yannic Kilcher Transformer Position encoding