Технологии LLM и RAG в MIT: как работают современные языковые модели

MIT OpenCourseWare 11 тыс. 1 ч 14 мин 4 мин 07.01.2026
Главное

В рамках курса «Архитектура систем искусственного интеллекта» в Массачусетском технологическом институте (MIT) профессор Рама Рамакришнан представил глубокий технический разбор механизмов, лежащих в основе современных языковых моделей. Лекция была сосредоточена на переходе от архитектуры BERT к генеративным моделям семейства GPT, особенностях их обучения и нюансах работы с выходом нейросетей.

🤖 От маскирования к предсказанию следующего слова 0:16

Рама Рамакришнан начал с краткого обзора пройденного материала, напомнив об архитектуре BERT. Ключевая особенность BERT — использование метода «маскирования» (masking) . В этом процессе из предложения случайным образом удаляются слова (заменяются токеном [MASK]), а модель обучается восстанавливать их, анализируя двусторонний контекст. Этот подход относится к самообучению (self-supervised learning) на огромных массивах текста, таких как Wikipedia .

Однако основной темой лекции стал другой метод самообучения — предсказание следующего слова (next word prediction) . Профессор пояснил, что этот метод можно считать частным случаем маскирования, где «маской» всегда является последнее слово во фрагменте предложения .

Процесс подготовки данных выглядит так:

Этот подход лег в основу архитектуры GPT (Generative Pre-trained Transformer).

🧩 Трансформер-декодер: как запретить модели «читерить» 4:47

При попытке использовать стандартную архитектуру трансформера (которую использует BERT) для предсказания следующего слова возникает серьезная проблема. В стандартном слое внимания (Self-Attention) каждое слово может «видеть» все остальные слова в предложении, включая те, что стоят после него .

Для обучения модели предсказанию будущего это недопустимо. Если модель при обучении видит следующее слово, она не учится понимать язык, а просто «списывает» ответ из входных данных. Рамакришнан назвал это «читерством» .

Решением стала модификация архитектуры, получившая название Causal Self-Attention (причинное самовнимание) или Masked Self-Attention . Технически это реализовано следующим образом:

  1. Для каждого слова рассчитываются веса внимания ко всем остальным словам.
  2. Веса для всех слов, находящихся «в будущем» относительно текущего, принудительно обнуляются .
  3. Оставшиеся веса перенормируются так, чтобы их сумма снова была равна единице.

Модели, использующие такой механизм, называются авторегрессионными. Термин «декодер» в контексте GPT часто используется как синоним «причинного энкодера» (Causal Encoder) именно из-за наличия этого маскированного слоя внимания .

🎲 Декодирование и стратегии выбора токенов 30:53

На выходе языковой модели (после слоя Softmax) мы получаем не конкретное слово, а таблицу вероятностей для всей библиотеки токенов (обычно около 50 000 вариантов) . Процесс выбора конкретного слова из этой таблицы называется декодированием.

Профессор Рамакришнан выделил несколько стратегий декодирования:

  1. Жадное декодирование (Greedy Decoding): выбор слова с максимально высокой вероятностью . Это обеспечивает детерминизм (одинаковый ответ на одинаковый запрос), что важно для математических задач или техподдержки .
  2. Случайное сэмплирование (Random Sampling): выбор слова случайным образом пропорционально его вероятности . Это делает ответы более «человечными» и креативными, но несет риск ошибок.

Главная проблема случайного выбора заключается в «длинном хвосте» распределения. Даже если вероятность каждого отдельного бессмысленного слова в хвосте мала (например, 0,001%), суммарная вероятность выбрать хотя бы одно слово из хвоста может быть значительной . Если модель один раз выбирает неудачное слово (например, «мастера хаоса» вместо «мастера наук»), она не может «исправиться», так как это слово становится контекстом для всех последующих предсказаний .

Инструменты управления «хвостом»

Для минимизации галлюцинаций используются три параметра :

Рамакришнан продемонстрировал это в OpenAI Playground: при установке температуры на максимум (2.0) модель GPT-3.5 мгновенно начала выдавать абсолютно бессвязный набор символов и слов .

🔡 Магия токенизации: Byte Pair Encoding (BPE) 1:01:22

Современные модели не работают с целыми словами в их лингвистическом понимании. Вместо этого используется Byte Pair Encoding (BPE) . Этот алгоритм позволяет эффективно решать проблему новых слов и пунктуации.

Принцип работы BPE:

  1. Сначала все символы (буквы, цифры, знаки препинания) считаются отдельными токенами .
  2. Алгоритм находит пары токенов, которые чаще всего встречаются рядом в обучающем корпусе, и объединяет их в новый, более крупный токен .
  3. Процесс повторяется до достижения лимита словаря (50 000 у GPT-3 или 100 000 у GPT-4) .

В результате словарь состоит из:

Это объясняет, почему нейросеть смогла понять и использовать выдуманное лектором слово «reldoh» (перевертыш слова «hodler») . Модель просто разбила его на знакомые буквенные фрагменты. Интересным фактом стало то, что в токенезаторе OpenAI слово «Rama» с большой буквы разбивается на токены, а со строчной — является единым токеном, что указывает на специфику данных, на которых обучалась модель .

💬 Цитаты

«LLM занимаются субтрактивной скульптурой: каждое слово отсекает лишнее от глыбы мрамора, пока не проявится фигура Давида.»

Рама Рамакришнан 46:10

«Если модель случайно выберет токен из «хвоста» распределения, она часто уже не может вернуться в нормальное русло.»

Рама Рамакришнан 40:21
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Токен
Минимальная единица текста, с которой работает модель (может быть буквой, частью слова или целым словом).
Авторегрессия
Процесс предсказания, где каждый новый результат добавляется во входные данные для следующего шага.
Softmax
Математическая функция, которая превращает набор чисел в распределение вероятностей, суммирующееся до 100%.
📊 Цифры
🗓 Хронология
  1. 2020 Выпуск GPT-3 и публикация её архитектуры (96 блоков).
  2. 2022 Запуск ChatGPT, вызвавший всплеск интереса к генеративному ИИ.
  3. 2023 Выход GPT-4 с закрытой архитектурой и расширенным словарем.
⚖️ Другая сторона
Искусственный интеллект OpenAI GPT-3 Transformers Токенизация Softmax