# Стэнфорд CME295: Итоги 2025 года в мире трансформеров и диффузионных моделей

Источник: https://www.youtube.com/watch?v=Q86qzJ1K1Ss
Канал: Stanford Online
Опубликовано: 09.12.2025

---

Заключительная лекция курса CME 295 в Стэнфордском университете подводит итог эпохи доминирования трансформеров и намечает контуры будущего ИИ в 2025 году. Преподаватели Стэнфорда Афшин и Шервин Аммиди разбирают путь от первых векторов слов до современных рассуждающих моделей (Reasoning Models), анализируют интеграцию визуальных данных через Vision Transformers и предсказывают переход от классической авторегрессии к диффузионным языковым моделям.

## 🚀 Ретроспектива: эволюция от векторов до современных LLM
[[JUMP:01:13]]

История современных языковых моделей началась с попыток компьютеров понять текст через токенизацию — разделение входных данных на атомарные единицы [01:55]. Афшин Аммиди напоминает, что ключевым прорывом стал переход от простых алгоритмов вроде word2vec к контекстно-зависимым архитектурам [03:21].

**Основные этапы развития архитектур:**

*   **Word2vec:** первая популярная попытка выучить представления слов через прокси-задачи (предсказание центрального слова или контекста), однако эти представления были статичными и не менялись от контекста [02:53].
*   **RNN (Рекуррентные нейросети):** обрабатывали токены по одному, сохраняя внутреннее состояние. Их главной проблемой была «короткая память» (проблема дальних зависимостей) [04:04].
*   **Механизм Self-Attention:** концепция, позволяющая токенам «взаимодействовать» друг с другом напрямую, независимо от их расстояния в тексте [04:30]. Формула $Softmax(QK^T / \sqrt{d_k})V$ стала стандартом обработки данных в современном аппаратном обеспечении [05:22].

Трансформеры, представленные в 2017 году, разделились на три ветви: энкодеры (BERT — для классификации и эмбеддингов), декодеры (GPT — для генерации текста) и гибридные модели (T5) [10:27]. С тех пор архитектура обросла «трюками» для повышения эффективности, такими как Rotary Position Embeddings (RoPE) для учета относительных позиций токенов и Grouped Query Attention (GQA) для оптимизации работы с матрицами внимания [07:45].

## 🧠 Обучение и выравнивание: как заставить модель рассуждать
[[JUMP:15:30]]

Создание современной LLM — это многоступенчатый процесс, где размер имеет значение. Согласно законам масштабирования (Scaling Laws), чем больше параметров и данных, тем выше производительность [15:44]. Афшин приводит эмпирическое правило (rule of thumb): на каждый параметр модели должно приходиться не менее 20 токенов обучающих данных [17:35]. Так, модель на 100 миллиардов параметров требует минимум 2 триллиона токенов [17:50].

**Этапы подготовки модели:**

1.  **Pre-training (Предобучение):** обучение на триллионах токенов для понимания структуры языка и кода [21:26].
2.  **SFT (Supervised Fine-Tuning):** обучение на парах «вопрос-ответ» для формирования нужного поведения [22:25].
3.  **Preference Tuning (Выравнивание):** использование обратной связи от человека (RLHF), чтобы научить модель выбирать более безопасные и полезные ответы [23:07].

Особое внимание лектор уделяет алгоритмам обучения с подкреплением. По мнению Афшина, алгоритм GRPO (Group Relative Policy Optimization) в 2025 году вытесняет классический PPO (Proximal Policy Optimization) [32:36]. В отличие от PPO, GRPO не требует отдельной «модели ценности» (Value Model), что делает его дешевле в обучении [34:49]. GRPO генерирует несколько вариантов ответа и сравнивает их награды между собой напрямую [35:09]. Это особенно эффективно для задач рассуждения, где результат можно проверить математически (Verifiable Reward) [36:19].

## 🖼️ Трансформеры вне текста: Vision Transformer (ViT)
[[JUMP:49:14]]

Хотя трансформеры начинались с машинного перевода, их архитектура универсальна, так как работает с векторами. В 2020 году исследователи представили Vision Transformer (ViT), который применил те же принципы к изображениям [53:02].

**Механика работы ViT:**

*   Изображение разбивается на фиксированные фрагменты — патчи (например, 3x3) [56:21].
*   Каждый патч проецируется в векторное представление (линейный слой) [57:05].
*   Добавляется позиционный эмбеддинг, чтобы модель знала, где находится фрагмент изображения [57:35].
*   Данные пропускаются через стандартный энкодер трансформера [57:48].

Афшин отмечает удивительный факт: у ViT очень низкое «индуктивное смещение» (inductive bias) по сравнению с конволюционными сетями (CNN) [55:22]. CNN изначально «заточены» под зрение (сканирование картинки), тогда как ViT позволяет любым частям изображения взаимодействовать друг с другом. При наличии огромных массивов данных ViT начинает превосходить традиционные CNN [55:40]. На базе этой технологии строятся мультимодальные модели (VLM), такие как LAVA, которые могут «видеть» картинку и отвечать на вопросы по ней в чате [1:00:42].

## 🌀 Диффузионные LLM: альтернатива авторегрессии
[[JUMP:1:04:04]]

Одной из самых горячих тем 2025 года лекторы называют переход к диффузионным языковым моделям (Diffusion-based LLMs). Традиционные модели являются авторегрессионными: они предсказывают токены по одному, строго последовательно [1:05:03]. Проблема в том, что такую генерацию невозможно распараллелить, что ограничивает скорость работы [1:06:13].

Диффузия, пришедшая из генерации изображений, работает иначе. Если в картинках мы начинаем с шума и постепенно «проявляем» объект, то в тексте аналогом шума выступает токен маскирования (MASK) [1:14:05].

**Преимущества диффузионных LLM (на примере LLaDA):**

*   **Скорость:** генерация может быть до 10 раз быстрее за счет меньшего количества проходов через модель [1:20:28].
*   **Fill-in-the-middle:** такие модели лучше справляются с задачами, где нужно дописать код в середине существующего блока, так как видят контекст с обеих сторон одновременно [1:21:28].
*   По аналогии Шервина, авторегрессия — это письмо в строчку слово за словом, а диффузия — это написание речи: сначала набросок (черновик), затем постепенное уточнение деталей по всему тексту [1:17:33].

## 🔮 Тренды будущего: железо, данные и маленькие модели
[[JUMP:1:28:17]]

Шервин Аммиди завершает лекцию обзором текущих вызовов. Одной из главных проблем он называет «коллапс моделей» (Model Collapse): так как интернет заполняется контентом, созданным ИИ, новые модели начинают обучаться на данных старых моделей [1:33:00]. Это ведет к снижению разнообразия и деградации качества [1:34:28]. Поэтому критически важной становится курация данных и создание высококачественных «синтетических» датасетов.

**Ключевые направления развития:**

1.  **SLM (Small Language Models):** вместо гигантских моделей фокус смещается на создание маленьких, но эффективных и дешевых в использовании систем [1:36:10].
2.  **Оптимизация железа:** современные GPU хороши в умножении матриц, но архитектура трансформеров требует более сложных операций с памятью [1:36:56]. По словам Шервина, появляются прототипы аппаратного обеспечения, где вычисления происходят на уровне аналоговых сигналов, что радикально снижает энергопотребление [1:38:49].
3.  **Агенты и демократизация:** переход от чат-ботов к автономным агентам, которые могут пользоваться браузером и операционной системой, используя только естественный язык [1:43:45].

Несмотря на прогресс, Шервин считает, что фундаментальные проблемы, такие как галлюцинации, персонализация и непрерывное обучение (способность модели учиться после завершения тренировки), остаются открытыми вопросами для следующего поколения исследователей [1:46:47].