# От BERT до RoPE: Шервин и Афшин об эволюции архитектуры Transformer

Источник: https://www.youtube.com/watch?v=yT84Y5zCnaA
Канал: Stanford Online
Опубликовано: 17.10.2025

---

На лекции CME295 в Стэнфордском университете Афшин Абди (Afshine Abdi) и Шервин Амиди (Shervine Amidi) представили глубокий разбор эволюции архитектуры Transformer с момента её появления в 2017 году до современных LLM. Основное внимание было уделено техническим приемам (tricks), которые позволили моделям стать более эффективными, стабильными и масштабируемыми.

## 🧭 Эволюция позиционного кодирования: от статики к вращению
[[JUMP:10:32]]

В отличие от рекуррентных нейросетей (RNN), трансформеры обрабатывают токены не последовательно, а параллельно. Афшин Абди объясняет, что из-за этого модель «теряет» информацию о порядке слов, если не добавить специальные позиционные эмбеддинги [11:13]. 

В оригинальной статье «Attention is All You Need» предлагались два типа эмбеддингов:

*   **Обучаемые эмбеддинги:** для каждой позиции создается свой вектор, параметры которого подбираются в процессе обучения. Минус в том, что модель ограничена максимальной длиной последовательности из обучающего набора (например, 512 токенов) [13:33].
*   **Статические (синусоидальные) эмбеддинги:** используются формулы синуса и косинуса с разными частотами. Это позволяет модели экстраполировать данные на более длинные последовательности, которые она не видела при обучении [25:05].

На лекции подробно разбирается интуиция тригонометрического подхода: скалярное произведение таких векторов зависит от относительного расстояния между словами [20:32]. Чем ближе токены друг к другу, тем выше их сходство. Однако в 2025 году стандартом стал метод **RoPE (Rotary Position Embeddings)**. Вместо сложения векторов, RoPE применяет матрицу вращения к запросам (queries) и ключам (keys), что позволяет математически закрепить зависимость внимания от относительной дистанции между токенами [37:39].

## ⚖️ Нормализация слоев: Pre-norm против Post-norm
[[JUMP:43:42]]

Важным элементом стабильности обучения является Layer Normalization. Афшин отмечает, что в оригинальном трансформере использовалась схема **Post-norm**, где нормализация шла после суммирования входа и выхода подслоя [46:36]. Современные же модели перешли на **Pre-norm** (нормализация перед подслоем) и используют **RMSNorm** (Root Mean Square Normalization).

По словам лектора, RMSNorm работает быстрее, так как не требует вычисления среднего значения (mean) и использует меньше параметров, при этом сохраняя сопоставимую точность [47:39]. Это критично для предотвращения «внутреннего сдвига ковариат», когда активации слоев становятся слишком большими или маленькими, мешая обучению [49:09]. 

## ⚡ Оптимизация внимания: MQA, GQA и локальные окна
[[JUMP:50:44]]

Стандартный механизм внимания имеет квадратичную сложность $O(n^2)$, что делает обработку длинных текстов чрезвычайно дорогой. Для решения этой проблемы были внедрены:

1.  **Sliding Window Attention (скользящее окно):** токены «видят» только своих соседей, что снижает затраты [53:19].
2.  **Multi-Query Attention (MQA):** все головы внимания делят общий набор ключей (keys) и значений (values), имея разные только запросы (queries) [59:04].
3.  **Grouped-Query Attention (GQA):** промежуточный вариант, используемый в современных моделях (например, Llama), где головы объединяются в группы для совместного использования ключей и значений [59:30].

Абди подчеркивает, что такие методы, как GQA, направлены в первую очередь на уменьшение размера **KV-кэша** [58:09]. Это позволяет экономить память видеокарты при генерации текста, не жертвуя качеством, которое дает многоголовое внимание.

## 🏗️ Разделение на кланы: Encoder-only, Decoder-only и T5
[[JUMP:1:02:42]]

Шервин Амиди перехватывает инициативу и классифицирует современные модели по их структуре:

*   **Encoder-Decoder (T5):** Полная архитектура, использующая задачу «span corruption» (восстановление пропущенных фрагментов текста) вместо предсказания следующего слова [1:05:23].
*   **Encoder-only (BERT):** Модели, предназначенные для классификации и извлечения смыслов. Они обладают двунаправленностью (bidirectionality), позволяя каждому токену «смотреть» на весь текст сразу [1:12:11].
*   **Decoder-only (GPT, Llama):** Доминирующий сегодня класс моделей. Шервин объясняет, что индустрия отказалась от энкодеров в пользу декодеров, так как задача предсказания следующего токена лучше всего масштабируется и лучше подходит для чат-ботов [1:10:36].

## 🎓 Феномен BERT: от CLS-токенов до дистилляции знаний
[[JUMP:1:11:45]]

Шервин подробно разбирает модель **BERT**. Её ключевая особенность — использование специального токена `[CLS]` в начале последовательности. После прохождения через все слои энкодера, вектор этого токена агрегирует контекст всего предложения и используется для классификации [1:16:53]. 

В процессе обучения BERT решаются две задачи:

*   **MLM (Masked Language Model):** 15% токенов скрываются или заменяются, и модель должна их угадать [1:29:27].
*   **NSP (Next Sentence Prediction):** Модель определяет, является ли второе предложение логическим продолжением первого. Однако, по словам Амиди, более поздние исследования (RoBERTa) показали, что задача NSP может быть избыточной и даже вредной [1:46:36].

Для случаев, когда BERT слишком тяжел для запуска (110 млн параметров), применяется **дистилляция** (DistilBERT). Шервин описывает это как процесс, где маленькая «модель-ученик» пытается не просто угадать правильный ответ, а повторить всё распределение вероятностей «модели-учителя» [1:44:53]. По словам Шервина, DistilBERT сохраняет 97% качества оригинала, будучи на 40% меньше и на 60% быстрее [1:46:06].