Как работают трансформеры: От self-attention до BERT и Hugging Face

MIT OpenCourseWare 11,6 тыс. 1 ч 16 мин 3 мин 07.01.2026
Главное

Архитектура Transformers: Глубокое погружение в механизмы и Self-Supervised Learning 0:16

Трансформеры стали фундаментом современной обработки естественного языка (NLP), обеспечивая генерацию контекстуальных представлений данных. В этой лекции Рама Рамакришнан из MIT OpenCourseWare детально анализирует устройство трансформера, объясняя, как именно архитектура трансформирует входные эмбеддинги в контекстуальные, и почему использование механизмов обучения с самонаблюдением (Self-Supervised Learning) позволяет создавать мощные модели общего назначения.

🧩 Основы архитектуры: от Self-Attention к тунируемости 6:24

В основе трансформера лежит механизм self-attention (самовнимание), который позволяет модели оценивать степень связи между всеми словами в предложении.

🛠️ Инженерная прочность: Residual Connections и Layer Normalization 28:55

Чтобы сделать трансформер «промышленно пригодным» и избежать проблем с градиентами, в архитектуру добавляются два ключевых элемента:

  1. Residual Connections (остаточные связи): Позволяют оригинальному входу «проходить» сквозь блоки, что значительно улучшает поток градиента при обратном распространении ошибки.
  2. Layer Normalization: Стандартизация данных внутри слоя (приведение к диапазону с малым разбросом) предотвращает взрыв или затухание градиентов, обеспечивая стабильное обучение.

Рамакришнан отмечает, что благодаря возможности стекирования блоков, современные модели, такие как GPT-3, могут содержать до 96 слоев трансформеров, что кратно увеличивает их моделирующую способность.

🎓 Обучение с самонаблюдением и BERT 47:55

Ключевым преимуществом трансформеров является возможность использования огромных объемов неразмеченных данных из интернета через Self-Supervised Learning.

🚀 Экосистема Hugging Face и мультимодальность 59:50

Для стандартных задач (анализ тональности, извлечение именованных сущностей — NER, ответы на вопросы) нет нужды обучать модель с нуля.

💬 Цитаты

«Масштаб: если у вас 3 слова, то 9 умножений. Если миллион слов — это триллионы умножений.»

Рама Рамакришнан 11:04

«Когда вы думаете, что принимаете ad hoc решение, остановитесь и спросите: можно ли это изучить из данных через обратное распространение ошибки?»

Рама Рамакришнан 45:51
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Self-attention
Механизм, позволяющий модели определять важность каждого элемента входной последовательности относительно других.
CLS-токен
Специальный токен, используемый в моделях типа BERT для представления всего предложения при классификации.
Эмбеддинг
Векторное представление слова или объекта в многомерном пространстве, где близкие по смыслу объекты находятся рядом.
Маскирование
Техника обучения, при которой часть входных данных скрывается для последующего восстановления сетью.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Transformer Self-Attention BERT Hugging Face Self-Supervised Learning