«Они захватили всё»: Рама Рамакришнан о принципах работы трансформеров

MIT OpenCourseWare 11,8 тыс. 1 ч 16 мин 3 мин 07.01.2026
Главное

Архитектура Transformers: от машинного перевода до AlphaFold 0:16

Архитектура трансформеров (Transformers), изначально созданная для задач машинного перевода, стала фундаментальным элементом современной глубокой нейросетевой архитектуры. По словам Рамы Рамакришнана, сегодня трансформеры «захватили всё»: от поисковых систем и распознавания речи до генеративного ИИ, компьютерного зрения и даже узкоспециализированных систем вроде AlphaFold, предсказывающей сворачивание белков. Гибкость этой архитектуры настолько высока, что исследователи почти рефлекторно выбирают её для решения новых задач, даже если те изначально не были для неё предназначены.

🛠 Мотивация: задача классификации слотов 2:00

Для изучения принципов работы трансформеров Рамакришнан предлагает использовать задачу извлечения информации из естественного языка, например, поиск авиарейсов: «Найди мне все рейсы из Бостона в Ла-Гуардиа завтра утром».

Процесс обработки такого запроса выглядит следующим образом:

  1. Парсинг: извлечение ключевых сущностей (откуда, куда, время).
  2. Структурирование: преобразование в структурированный запрос, например SQL, для базы данных.

Для автоматизации этого процесса исследователи используют размеченные датасеты (например, Airline Travel Information Systems Data Set), где каждое слово помечается определенным «слотом».

Основные правила разметки:

Это превращает задачу в классификацию «слово-к-слоту»: на 18 входящих слов модель должна выдать 18 меток. Главный вызов здесь — необходимость учитывать контекст (значение «Бостона» зависит от того, является ли он точкой отправления или прибытия) и порядок слов.

🧠 Самообучение: механизм Self-Attention 17:08

Трансформер элегантно решает задачу сохранения контекста через механизм самовнимания (self-attention). Идея заключается в том, чтобы «контекстуализировать» вектор каждого слова с помощью других слов в предложении.

🚀 Многоголовое внимание и масштабирование 37:02

Чтобы улавливать разные аспекты языка (грамматику, тон, факты), используется Multi-Head Attention — несколько параллельных механизмов внимания («голов»), каждый из которых учится выделять свои паттерны.

Техническая реализация включает следующие этапы:

  1. Параллельные головы: каждый блок внимания выдает свой вариант контекстуального вектора.
  2. Конкатенация: полученные векторы объединяются в один длинный вектор.
  3. Проекция: с помощью полносвязного (dense) слоя конкатенированный вектор сжимается обратно до исходной размерности.

Для внедрения нелинейности в конце добавляется слой с активацией ReLU, который расширяет размерность вектора (обычно в 4 раза) и снова сужает её. По словам Рамакришнана, несмотря на кажущуюся «ad hoc» природу этих дополнений, архитектура трансформера оказалась крайне надежной и трудноулучшаемой.

📍 Позиционное кодирование: учет порядка 48:48

Поскольку механизм внимания по своей сути работает с наборами (sets), а не последовательностями, он не чувствует порядка слов. Для исправления этого используется позиционное кодирование.

Благодаря тому, что трансформер поддерживает «идеальный API» (размер входа равен размеру выхода), блоки можно стекать друг на друга, как блики, создавая глубокие модели, такие как GPT-3 с её 96 слоями.

💬 Цитаты

«Они захватили всё. Трансформеры трансформировали перевод, поиск Google, извлечение информации, распознавание речи, преобразование текста в речь и даже компьютерное зрение.»

Рама Рамакришнан 0:42

«Поскольку мы проявили чрезвычайную осторожность, чтобы вещи, которые входят и выходят, имели одинаковый размер, мы можем складывать их друг на друга, как блины.»

Рама Рамакришнан 1:00:37
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Self-Attention
Механизм, позволяющий модели определять важность одних слов для других в рамках одного предложения.
Softmax
Функция, преобразующая набор чисел в вероятностное распределение, где сумма всех элементов равна 1.
Token
Минимальная единица текста, с которой работает токенизатор (может быть словом, частью слова или символом).
Multi-head attention
Параллельное использование нескольких механизмов внимания для обучения различным паттернам языка.
📊 Цифры
🗓 Хронология
  1. 2017 Разработка оригинальной архитектуры трансформера.
⚖️ Другая сторона
Искусственный интеллект Transformers Self-Attention Multi-Head Attention Deep Learning NLP