Профессор MIT Рама Рамакришнан о принципах работы LLM и GPT

MIT OpenCourseWare 11 тыс. 1 ч 14 мин 4 мин 07.01.2026
Главное

В рамках курса MIT OpenCourseWare профессор Рама Рамакришнан представил глубокое погружение в архитектуру современных больших языковых моделей (LLM). Лекция охватывает путь развития нейросетей от BERT к семейству GPT, раскрывая математические хитрости, которые позволяют алгоритмам не просто копировать текст, а генерировать осмысленные и творческие ответы.

🧠 От маскировки к предсказанию: эволюция обучения 0:16

Ранее в курсе изучалась модель BERT, в основе которой лежит метод «маскировки» (masking). Это разновидность самообучения (self-supervised learning), где нейросеть обучается на текстах Википедии, заполняя пропуски в предложениях. Однако сейчас индустрия переключилась на другой, более мощный метод — предсказание следующего слова (next word prediction).

По мнению Рамакришнана, предсказание следующего слова — это частный случай маскировки, но оно оказывается «странным образом более интересным и мощным». Процесс выглядит следующим образом:

Для компактности данные подаются пачками (batches). Например, предложение «The cat sat on the mat» сдвигается, чтобы входные данные соотносились с целевыми выходами (cat -> sat, sat -> on). На выходе из стека трансформеров используется функция softmax, которая рассчитывает вероятности для всего словаря, составляющего обычно около 50 000 слов.

🛡️ Казуальное внимание: как запретить ИИ «подглядывать» 7:07

При использовании стандартной архитектуры трансформера возникает критическая проблема: механизм «внимания» (self-attention) позволяет каждому слову видеть все остальные слова в предложении. Если задача модели — предсказать следующее слово, она может просто «списать» его из конца предложения, которое уже есть во входных данных. Рамакришнан называет это «читерством».

Решением стало внедрение казуального внимания (causal self-attention), также известного как маскированное внимание:

  1. При расчете контекстного вложения для конкретного слова веса для всех будущих слов принудительно обнуляются.
  2. Матрица весов внимания превращается в треугольную: слово может «смотреть» только на то, что было слева от него.
  3. Оставшиеся веса перенормируются так, чтобы их сумма снова была равна единице.

Такая архитектура называется «казуальным энкодером» или декодером. Рамакришнан подчеркивает, что термин «казуальный» здесь не имеет отношения к причинно-следственным связям в философии, это чисто техническое определение направленности данных.

🔄 Авторегрессия и «психологические» трюки чат-ботов 21:52

Модели типа GPT являются авторегрессионными: они предсказывают одно слово, добавляют его к входному тексту и снова запускают процесс генерации. Этот цикл продолжается до тех пор, пока модель не выдаст токен остановки (например, точку) или не достигнет лимита длины.

Интересный нюанс касается пользовательского опыта (UX). Рамакришнан упоминает мнение коллег по индустрии: когда ChatGPT «печатает» ответ по одному слову на экране, это часто является намеренным замедлением. Сама модель может генерировать текст гораздо быстрее, но разработчики имитируют человеческий темп печати, чтобы бот не казался слишком «жутким» и воспринимался более естественно. (Сам лектор не берется утверждать, что это правда на 100%, но называет это распространенной практикой).

Масштабы современных моделей поражают:



🎲 Стратегии декодирования: от математики к «носкам» 31:33

Когда нейросеть выдает таблицу вероятностей для 50 000 слов, возникает вопрос: какое именно слово выбрать? Существует два экстремальных подхода:

  1. Жадное декодирование (Greedy decoding): всегда выбирать слово с самой высокой вероятностью. Это делает ответы детерминированными (одинаковыми при каждом запуске), что полезно для математики и логики.
  2. Случайная выборка (Random sampling): выбирать слова пропорционально их вероятности. Это добавляет креативности, но может привести к ошибкам.

Проблема случайной выборки заключается в «длинном хвосте» маловероятных слов. Если модель случайно выберет слово из этого хвоста, она не сможет исправить ошибку и «уйдет в разнос». Профессор продемонстрировал это на забавных примерах: когда он заставил GPT-3.5 выбирать маловероятные слова в предложении о студентах MIT Sloan, нейросеть выдала, что они — «мастера хаоса», которые проводят семестр, «вяжучи носки».

Для контроля хаоса используются три параметра:

$$P_i = \frac{e^{a_i / T}}{\sum e^{a_j / T}}$$

При $T \to 0$ модель становится «жадной» и предсказуемой. При $T > 1$ распределение вероятностей сглаживается, и нейросеть начинает выдавать бессвязную абракадабру. Демонстрация при $T = 2$ показала полную потерю смысла генерации.

🧩 Токенизация: как ИИ читает по частям 1:01:22

Современные модели не работают со словами целиком. Вместо этого используется Byte Pair Encoding (BPE). Это позволяет ИИ понимать даже выдуманные слова. Например, когда профессор ввел термин «reldoh» (слово hodler задом наперед), модель успешно встроила его в контекст предложения.

Алгоритм BPE работает по принципу слияния:

Любопытно, что токенизация чувствительна к регистру и пробелам. В словаре GPT слово «The» с заглавной буквы имеет другой ID, чем «the» со строчной. Более того, имя лектора «Rama» в нижнем регистре является отдельным токеном, а в верхнем — разбивается на части, что вызвало ироничное замечание профессора о том, какие именно сайты «скрейпили» разработчики OpenAI.

💬 Цитаты

«Предсказание следующего слова — это частный случай маскировки, который оказывается странным образом более интересным и мощным.»

Рама Рамакришнан 1:33

«Когда вы видите, как чат-бот печатает ответ, это часто намеренно замедленный процесс, чтобы имитировать человека.»

Рама Рамакришнан 27:45
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Softmax
Математическая функция, превращающая набор чисел в вероятности, которые в сумме дают 100%.
Авторегрессия
Процесс генерации, где каждый новый предсказанный элемент добавляется к входным данным для следующего шага.
Токенизация
Процесс разбиения текста на мелкие фрагменты (токены), которые понимает нейросеть.
Жадное декодирование
Метод выбора слова, имеющего абсолютно максимальную вероятность в распределении.
📊 Цифры
🗓 Хронология
  1. 2020 Публикация деталей архитектуры GPT-3 (после чего OpenAI стала более закрытой).
⚖️ Другая сторона
Технологии и IT Large Language Models GPT-3 Byte Pair Encoding MIT Sloan Softmax