Стэнфорд CME295: Итоги 2025 года в мире трансформеров и диффузионных моделей

Заключительная лекция курса CME 295 в Стэнфордском университете подводит итог эпохи доминирования трансформеров и намечает контуры будущего ИИ в 2025 году. Преподаватели Стэнфорда Афшин и Шервин Аммиди разбирают путь от первых векторов слов до современных рассуждающих моделей (Reasoning Models), анализируют интеграцию визуальных данных через Vision Transformers и предсказывают переход от классической авторегрессии к диффузионным языковым моделям.

🚀 Ретроспектива: эволюция от векторов до современных LLM 1:13

История современных языковых моделей началась с попыток компьютеров понять текст через токенизацию — разделение входных данных на атомарные единицы . Афшин Аммиди напоминает, что ключевым прорывом стал переход от простых алгоритмов вроде word2vec к контекстно-зависимым архитектурам .

Основные этапы развития архитектур:

Word2vec: первая популярная попытка выучить представления слов через прокси-задачи (предсказание центрального слова или контекста), однако эти представления были статичными и не менялись от контекста .
RNN (Рекуррентные нейросети): обрабатывали токены по одному, сохраняя внутреннее состояние. Их главной проблемой была «короткая память» (проблема дальних зависимостей) .
Механизм Self-Attention: концепция, позволяющая токенам «взаимодействовать» друг с другом напрямую, независимо от их расстояния в тексте . Формула $Softmax(QK^T / \sqrt{d_k})V$ стала стандартом обработки данных в современном аппаратном обеспечении .

Трансформеры, представленные в 2017 году, разделились на три ветви: энкодеры (BERT — для классификации и эмбеддингов), декодеры (GPT — для генерации текста) и гибридные модели (T5) . С тех пор архитектура обросла «трюками» для повышения эффективности, такими как Rotary Position Embeddings (RoPE) для учета относительных позиций токенов и Grouped Query Attention (GQA) для оптимизации работы с матрицами внимания .

🧠 Обучение и выравнивание: как заставить модель рассуждать 15:30

Создание современной LLM — это многоступенчатый процесс, где размер имеет значение. Согласно законам масштабирования (Scaling Laws), чем больше параметров и данных, тем выше производительность . Афшин приводит эмпирическое правило (rule of thumb): на каждый параметр модели должно приходиться не менее 20 токенов обучающих данных . Так, модель на 100 миллиардов параметров требует минимум 2 триллиона токенов .

Этапы подготовки модели:

Pre-training (Предобучение): обучение на триллионах токенов для понимания структуры языка и кода .
SFT (Supervised Fine-Tuning): обучение на парах «вопрос-ответ» для формирования нужного поведения .
Preference Tuning (Выравнивание): использование обратной связи от человека (RLHF), чтобы научить модель выбирать более безопасные и полезные ответы .

Особое внимание лектор уделяет алгоритмам обучения с подкреплением. По мнению Афшина, алгоритм GRPO (Group Relative Policy Optimization) в 2025 году вытесняет классический PPO (Proximal Policy Optimization) . В отличие от PPO, GRPO не требует отдельной «модели ценности» (Value Model), что делает его дешевле в обучении . GRPO генерирует несколько вариантов ответа и сравнивает их награды между собой напрямую . Это особенно эффективно для задач рассуждения, где результат можно проверить математически (Verifiable Reward) .

🖼️ Трансформеры вне текста: Vision Transformer (ViT) 49:14

Хотя трансформеры начинались с машинного перевода, их архитектура универсальна, так как работает с векторами. В 2020 году исследователи представили Vision Transformer (ViT), который применил те же принципы к изображениям .

Механика работы ViT:

Изображение разбивается на фиксированные фрагменты — патчи (например, 3x3) .
Каждый патч проецируется в векторное представление (линейный слой) .
Добавляется позиционный эмбеддинг, чтобы модель знала, где находится фрагмент изображения .
Данные пропускаются через стандартный энкодер трансформера .

Афшин отмечает удивительный факт: у ViT очень низкое «индуктивное смещение» (inductive bias) по сравнению с конволюционными сетями (CNN) . CNN изначально «заточены» под зрение (сканирование картинки), тогда как ViT позволяет любым частям изображения взаимодействовать друг с другом. При наличии огромных массивов данных ViT начинает превосходить традиционные CNN . На базе этой технологии строятся мультимодальные модели (VLM), такие как LAVA, которые могут «видеть» картинку и отвечать на вопросы по ней в чате .

🌀 Диффузионные LLM: альтернатива авторегрессии 1:04:04

Одной из самых горячих тем 2025 года лекторы называют переход к диффузионным языковым моделям (Diffusion-based LLMs). Традиционные модели являются авторегрессионными: они предсказывают токены по одному, строго последовательно . Проблема в том, что такую генерацию невозможно распараллелить, что ограничивает скорость работы .

Диффузия, пришедшая из генерации изображений, работает иначе. Если в картинках мы начинаем с шума и постепенно «проявляем» объект, то в тексте аналогом шума выступает токен маскирования (MASK) .

Преимущества диффузионных LLM (на примере LLaDA):

Скорость: генерация может быть до 10 раз быстрее за счет меньшего количества проходов через модель .
Fill-in-the-middle: такие модели лучше справляются с задачами, где нужно дописать код в середине существующего блока, так как видят контекст с обеих сторон одновременно .
По аналогии Шервина, авторегрессия — это письмо в строчку слово за словом, а диффузия — это написание речи: сначала набросок (черновик), затем постепенное уточнение деталей по всему тексту .

🔮 Тренды будущего: железо, данные и маленькие модели 1:28:17

Шервин Аммиди завершает лекцию обзором текущих вызовов. Одной из главных проблем он называет «коллапс моделей» (Model Collapse): так как интернет заполняется контентом, созданным ИИ, новые модели начинают обучаться на данных старых моделей . Это ведет к снижению разнообразия и деградации качества . Поэтому критически важной становится курация данных и создание высококачественных «синтетических» датасетов.

Ключевые направления развития:

SLM (Small Language Models): вместо гигантских моделей фокус смещается на создание маленьких, но эффективных и дешевых в использовании систем .
Оптимизация железа: современные GPU хороши в умножении матриц, но архитектура трансформеров требует более сложных операций с памятью . По словам Шервина, появляются прототипы аппаратного обеспечения, где вычисления происходят на уровне аналоговых сигналов, что радикально снижает энергопотребление .
Агенты и демократизация: переход от чат-ботов к автономным агентам, которые могут пользоваться браузером и операционной системой, используя только естественный язык .

Несмотря на прогресс, Шервин считает, что фундаментальные проблемы, такие как галлюцинации, персонализация и непрерывное обучение (способность модели учиться после завершения тренировки), остаются открытыми вопросами для следующего поколения исследователей .