От BERT до RoPE: Шервин и Афшин об эволюции архитектуры Transformer

Stanford Online 137 тыс. 1 ч 47 мин 3 мин 17.10.2025
Главное

На лекции CME295 в Стэнфордском университете Афшин Абди (Afshine Abdi) и Шервин Амиди (Shervine Amidi) представили глубокий разбор эволюции архитектуры Transformer с момента её появления в 2017 году до современных LLM. Основное внимание было уделено техническим приемам (tricks), которые позволили моделям стать более эффективными, стабильными и масштабируемыми.

🧭 Эволюция позиционного кодирования: от статики к вращению 10:32

В отличие от рекуррентных нейросетей (RNN), трансформеры обрабатывают токены не последовательно, а параллельно. Афшин Абди объясняет, что из-за этого модель «теряет» информацию о порядке слов, если не добавить специальные позиционные эмбеддинги .

В оригинальной статье «Attention is All You Need» предлагались два типа эмбеддингов:

На лекции подробно разбирается интуиция тригонометрического подхода: скалярное произведение таких векторов зависит от относительного расстояния между словами . Чем ближе токены друг к другу, тем выше их сходство. Однако в 2025 году стандартом стал метод RoPE (Rotary Position Embeddings). Вместо сложения векторов, RoPE применяет матрицу вращения к запросам (queries) и ключам (keys), что позволяет математически закрепить зависимость внимания от относительной дистанции между токенами .

⚖️ Нормализация слоев: Pre-norm против Post-norm 43:42

Важным элементом стабильности обучения является Layer Normalization. Афшин отмечает, что в оригинальном трансформере использовалась схема Post-norm, где нормализация шла после суммирования входа и выхода подслоя . Современные же модели перешли на Pre-norm (нормализация перед подслоем) и используют RMSNorm (Root Mean Square Normalization).

По словам лектора, RMSNorm работает быстрее, так как не требует вычисления среднего значения (mean) и использует меньше параметров, при этом сохраняя сопоставимую точность . Это критично для предотвращения «внутреннего сдвига ковариат», когда активации слоев становятся слишком большими или маленькими, мешая обучению .

⚡ Оптимизация внимания: MQA, GQA и локальные окна 50:44

Стандартный механизм внимания имеет квадратичную сложность $O(n^2)$, что делает обработку длинных текстов чрезвычайно дорогой. Для решения этой проблемы были внедрены:

  1. Sliding Window Attention (скользящее окно): токены «видят» только своих соседей, что снижает затраты .
  2. Multi-Query Attention (MQA): все головы внимания делят общий набор ключей (keys) и значений (values), имея разные только запросы (queries) .
  3. Grouped-Query Attention (GQA): промежуточный вариант, используемый в современных моделях (например, Llama), где головы объединяются в группы для совместного использования ключей и значений .

Абди подчеркивает, что такие методы, как GQA, направлены в первую очередь на уменьшение размера KV-кэша . Это позволяет экономить память видеокарты при генерации текста, не жертвуя качеством, которое дает многоголовое внимание.

🏗️ Разделение на кланы: Encoder-only, Decoder-only и T5 1:02:42

Шервин Амиди перехватывает инициативу и классифицирует современные модели по их структуре:

🎓 Феномен BERT: от CLS-токенов до дистилляции знаний 1:11:45

Шервин подробно разбирает модель BERT. Её ключевая особенность — использование специального токена [CLS] в начале последовательности. После прохождения через все слои энкодера, вектор этого токена агрегирует контекст всего предложения и используется для классификации .

В процессе обучения BERT решаются две задачи:

Для случаев, когда BERT слишком тяжел для запуска (110 млн параметров), применяется дистилляция (DistilBERT). Шервин описывает это как процесс, где маленькая «модель-ученик» пытается не просто угадать правильный ответ, а повторить всё распределение вероятностей «модели-учителя» . По словам Шервина, DistilBERT сохраняет 97% качества оригинала, будучи на 40% меньше и на 60% быстрее .

💬 Цитаты

«Мягкие цели (soft targets) содержат почти все знания [модели-учителя].»

Шервин Амиди (цитируя Джеффри Хинтона) 1:44:06

«Сегодняшние LLM — это модели только с декодером, которые отказались от части энкодера.»

👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
RoPE
Rotary Position Embeddings — метод кодирования позиции через вращение векторов в пространстве.
KV-cache
Технология сохранения вычисленных векторов ключей и значений для ускорения генерации текста.
Дистилляция
Метод обучения маленькой нейросети на основе предсказаний большой и сложной модели.
📊 Цифры
🗓 Хронология
  1. 2017 Выход статьи «Attention is All You Need» и появление трансформера.
  2. 2018 Появление моделей BERT и ELMo, начало бума двунаправленных представлений.
  3. 2020 Публикация статьи о Longformer, вводящей локальное внимание для длинных контекстов.
⚖️ Другая сторона
Искусственный интеллект Transformer BERT RoPE Google DeepMind OpenAI