Стэнфорд CME295: Итоги 2025 года в мире трансформеров и диффузионных моделей

Stanford Online 123 тыс. 1 ч 51 мин 5 мин 09.12.2025
Главное

Заключительная лекция курса CME 295 в Стэнфордском университете подводит итог эпохи доминирования трансформеров и намечает контуры будущего ИИ в 2025 году. Преподаватели Стэнфорда Афшин и Шервин Аммиди разбирают путь от первых векторов слов до современных рассуждающих моделей (Reasoning Models), анализируют интеграцию визуальных данных через Vision Transformers и предсказывают переход от классической авторегрессии к диффузионным языковым моделям.

🚀 Ретроспектива: эволюция от векторов до современных LLM 1:13

История современных языковых моделей началась с попыток компьютеров понять текст через токенизацию — разделение входных данных на атомарные единицы . Афшин Аммиди напоминает, что ключевым прорывом стал переход от простых алгоритмов вроде word2vec к контекстно-зависимым архитектурам .

Основные этапы развития архитектур:

Трансформеры, представленные в 2017 году, разделились на три ветви: энкодеры (BERT — для классификации и эмбеддингов), декодеры (GPT — для генерации текста) и гибридные модели (T5) . С тех пор архитектура обросла «трюками» для повышения эффективности, такими как Rotary Position Embeddings (RoPE) для учета относительных позиций токенов и Grouped Query Attention (GQA) для оптимизации работы с матрицами внимания .

🧠 Обучение и выравнивание: как заставить модель рассуждать 15:30

Создание современной LLM — это многоступенчатый процесс, где размер имеет значение. Согласно законам масштабирования (Scaling Laws), чем больше параметров и данных, тем выше производительность . Афшин приводит эмпирическое правило (rule of thumb): на каждый параметр модели должно приходиться не менее 20 токенов обучающих данных . Так, модель на 100 миллиардов параметров требует минимум 2 триллиона токенов .

Этапы подготовки модели:

  1. Pre-training (Предобучение): обучение на триллионах токенов для понимания структуры языка и кода .
  2. SFT (Supervised Fine-Tuning): обучение на парах «вопрос-ответ» для формирования нужного поведения .
  3. Preference Tuning (Выравнивание): использование обратной связи от человека (RLHF), чтобы научить модель выбирать более безопасные и полезные ответы .

Особое внимание лектор уделяет алгоритмам обучения с подкреплением. По мнению Афшина, алгоритм GRPO (Group Relative Policy Optimization) в 2025 году вытесняет классический PPO (Proximal Policy Optimization) . В отличие от PPO, GRPO не требует отдельной «модели ценности» (Value Model), что делает его дешевле в обучении . GRPO генерирует несколько вариантов ответа и сравнивает их награды между собой напрямую . Это особенно эффективно для задач рассуждения, где результат можно проверить математически (Verifiable Reward) .

🖼️ Трансформеры вне текста: Vision Transformer (ViT) 49:14

Хотя трансформеры начинались с машинного перевода, их архитектура универсальна, так как работает с векторами. В 2020 году исследователи представили Vision Transformer (ViT), который применил те же принципы к изображениям .

Механика работы ViT:

Афшин отмечает удивительный факт: у ViT очень низкое «индуктивное смещение» (inductive bias) по сравнению с конволюционными сетями (CNN) . CNN изначально «заточены» под зрение (сканирование картинки), тогда как ViT позволяет любым частям изображения взаимодействовать друг с другом. При наличии огромных массивов данных ViT начинает превосходить традиционные CNN . На базе этой технологии строятся мультимодальные модели (VLM), такие как LAVA, которые могут «видеть» картинку и отвечать на вопросы по ней в чате .

🌀 Диффузионные LLM: альтернатива авторегрессии 1:04:04

Одной из самых горячих тем 2025 года лекторы называют переход к диффузионным языковым моделям (Diffusion-based LLMs). Традиционные модели являются авторегрессионными: они предсказывают токены по одному, строго последовательно . Проблема в том, что такую генерацию невозможно распараллелить, что ограничивает скорость работы .

Диффузия, пришедшая из генерации изображений, работает иначе. Если в картинках мы начинаем с шума и постепенно «проявляем» объект, то в тексте аналогом шума выступает токен маскирования (MASK) .

Преимущества диффузионных LLM (на примере LLaDA):

🔮 Тренды будущего: железо, данные и маленькие модели 1:28:17

Шервин Аммиди завершает лекцию обзором текущих вызовов. Одной из главных проблем он называет «коллапс моделей» (Model Collapse): так как интернет заполняется контентом, созданным ИИ, новые модели начинают обучаться на данных старых моделей . Это ведет к снижению разнообразия и деградации качества . Поэтому критически важной становится курация данных и создание высококачественных «синтетических» датасетов.

Ключевые направления развития:

  1. SLM (Small Language Models): вместо гигантских моделей фокус смещается на создание маленьких, но эффективных и дешевых в использовании систем .
  2. Оптимизация железа: современные GPU хороши в умножении матриц, но архитектура трансформеров требует более сложных операций с памятью . По словам Шервина, появляются прототипы аппаратного обеспечения, где вычисления происходят на уровне аналоговых сигналов, что радикально снижает энергопотребление .
  3. Агенты и демократизация: переход от чат-ботов к автономным агентам, которые могут пользоваться браузером и операционной системой, используя только естественный язык .

Несмотря на прогресс, Шервин считает, что фундаментальные проблемы, такие как галлюцинации, персонализация и непрерывное обучение (способность модели учиться после завершения тренировки), остаются открытыми вопросами для следующего поколения исследователей .

💬 Цитаты

«Скульптура уже завершена внутри мраморного блока. Я просто должен отсечь лишний материал.»

Микеланджело (цитируется Афшином Аммиди) 1:11:29

«Галлюцинирование в некотором смысле является основной особенностью дизайна этих LLM.»

Шервин Аммиди 1:47:27
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
GRPO
Group Relative Policy Optimization — алгоритм обучения с подкреплением, не требующий модели ценности.
RoPE
Rotary Position Embeddings — метод кодирования позиции токена через вращение векторов в пространстве.
SRAM
Малая, но очень быстрая память внутри GPU, используемая Flash Attention для ускорения вычислений.
HBM
High Bandwidth Memory — основная видеопамять GPU, большая, но медленная по сравнению с кэшем.
📊 Цифры
🗓 Хронология
  1. 2017 Публикация статьи 'Attention Is All You Need', рождение трансформеров.
  2. 2020 Появление Vision Transformer (ViT), адаптация архитектуры для обработки изображений.
  3. 2024-2025 Активное развитие диффузионных языковых моделей и переход на GRPO.
⚖️ Другая сторона
Искусственный интеллект Stanford Online Transformers Diffusion LLM GRPO Vision Transformer