# Как работают трансформеры: От self-attention до BERT и Hugging Face

Источник: https://www.youtube.com/watch?v=v-lHsawHyaI
Канал: MIT OpenCourseWare
Опубликовано: 07.01.2026

---

## Архитектура Transformers: Глубокое погружение в механизмы и Self-Supervised Learning
[[JUMP:0:16]]

Трансформеры стали фундаментом современной обработки естественного языка (NLP), обеспечивая генерацию контекстуальных представлений данных. В этой лекции Рама Рамакришнан из MIT OpenCourseWare детально анализирует устройство трансформера, объясняя, как именно архитектура трансформирует входные эмбеддинги в контекстуальные, и почему использование механизмов обучения с самонаблюдением (Self-Supervised Learning) позволяет создавать мощные модели общего назначения.

### 🧩 Основы архитектуры: от Self-Attention к тунируемости
[[JUMP:6:24]]

В основе трансформера лежит механизм **self-attention** (самовнимание), который позволяет модели оценивать степень связи между всеми словами в предложении.

*   **Матричная эффективность:** Организация self-attention через матричное умножение $X \times X^T$ позволяет параллельно вычислять dot-продукты для всех пар слов, что критически важно для работы на GPU.
*   **Внедрение параметров (Tunability):** Первоначальная версия self-attention была «необучаемой» (без параметров). Для повышения выразительной мощности вводится три обучаемые матрицы:
    *   **Key (K):** Преобразует вход $X$ для сравнения.
    *   **Query (Q):** Преобразует вход $X$ для поиска соответствий.
    *   **Value (V):** Преобразует вход $X$ для формирования финального контекстуального представления.
*   **Математическая формула:** Финальное представление вычисляется как $\text{softmax}(QK^T)V$.
*   **Multi-head attention:** Использование нескольких голов внимания позволяет модели улавливать разные типы паттернов — от грамматических связей до смысловых оттенков.

### 🛠️ Инженерная прочность: Residual Connections и Layer Normalization
[[JUMP:28:55]]

Чтобы сделать трансформер «промышленно пригодным» и избежать проблем с градиентами, в архитектуру добавляются два ключевых элемента:

1.  **Residual Connections (остаточные связи):** Позволяют оригинальному входу «проходить» сквозь блоки, что значительно улучшает поток градиента при обратном распространении ошибки.
2.  **Layer Normalization:** Стандартизация данных внутри слоя (приведение к диапазону с малым разбросом) предотвращает взрыв или затухание градиентов, обеспечивая стабильное обучение.

Рамакришнан отмечает, что благодаря возможности стекирования блоков, современные модели, такие как GPT-3, могут содержать до 96 слоев трансформеров, что кратно увеличивает их моделирующую способность.

### 🎓 Обучение с самонаблюдением и BERT
[[JUMP:47:55]]

Ключевым преимуществом трансформеров является возможность использования огромных объемов неразмеченных данных из интернета через **Self-Supervised Learning**.

*   **Метод маскирования:** Из предложения удаляется (маскируется) часть слов, и задача нейросети — восстановить их, опираясь на контекст остальных слов.
*   **Представления (Representations):** В процессе обучения заполнению пропусков сеть автоматически учится вычленять общие закономерности языка, превращаясь в «предобученный энкодер».
*   **BERT:** Первая модель на базе двунаправленного трансформера, которая начала активно использоваться Google в 2019 году для улучшения поиска. Использование специального токена `[CLS]` позволяет модели выдавать готовую «сводку» для задач классификации предложений без дополнительной перестройки архитектуры.

### 🚀 Экосистема Hugging Face и мультимодальность
[[JUMP:59:50]]

Для стандартных задач (анализ тональности, извлечение именованных сущностей — NER, ответы на вопросы) нет нужды обучать модель с нуля.

*   **Hugging Face:** Платформа, предоставляющая доступ к более чем 520 000 предобученных моделей. Инструмент `pipeline` позволяет решать задачи в одну строку кода.
*   **Мультимодальность:** Трансформеры агностичны к типу входных данных. Ключевая задача — привести данные (изображения, таблицы, аудио) к виду эмбеддингов. Например:
    *   **Vision Transformer:** Изображение разбивается на патчи, которые проецируются в векторы эмбеддингов.
    *   **TabTransformer:** Категориальные переменные переводятся в эмбеддинги и объединяются с непрерывными признаками.
*   **Синтез данных:** Современные модели (например, Google Gemini 1.5 Pro или GPT-4) используют трансформеры для обработки связок «изображение + текст», так как после преобразования всех модальностей в единый формат эмбеддингов модель перестает различать источник данных.