Заключительная лекция курса CME 295 в Стэнфордском университете подводит итог эпохи доминирования трансформеров и намечает контуры будущего ИИ в 2025 году. Преподаватели Стэнфорда Афшин и Шервин Аммиди разбирают путь от первых векторов слов до современных рассуждающих моделей (Reasoning Models), анализируют интеграцию визуальных данных через Vision Transformers и предсказывают переход от классической авторегрессии к диффузионным языковым моделям.
🚀 Ретроспектива: эволюция от векторов до современных LLM 1:13
История современных языковых моделей началась с попыток компьютеров понять текст через токенизацию — разделение входных данных на атомарные единицы . Афшин Аммиди напоминает, что ключевым прорывом стал переход от простых алгоритмов вроде word2vec к контекстно-зависимым архитектурам .
Основные этапы развития архитектур:
- Word2vec: первая популярная попытка выучить представления слов через прокси-задачи (предсказание центрального слова или контекста), однако эти представления были статичными и не менялись от контекста .
- RNN (Рекуррентные нейросети): обрабатывали токены по одному, сохраняя внутреннее состояние. Их главной проблемой была «короткая память» (проблема дальних зависимостей) .
- Механизм Self-Attention: концепция, позволяющая токенам «взаимодействовать» друг с другом напрямую, независимо от их расстояния в тексте . Формула $Softmax(QK^T / \sqrt{d_k})V$ стала стандартом обработки данных в современном аппаратном обеспечении .
Трансформеры, представленные в 2017 году, разделились на три ветви: энкодеры (BERT — для классификации и эмбеддингов), декодеры (GPT — для генерации текста) и гибридные модели (T5) . С тех пор архитектура обросла «трюками» для повышения эффективности, такими как Rotary Position Embeddings (RoPE) для учета относительных позиций токенов и Grouped Query Attention (GQA) для оптимизации работы с матрицами внимания .
🧠 Обучение и выравнивание: как заставить модель рассуждать 15:30
Создание современной LLM — это многоступенчатый процесс, где размер имеет значение. Согласно законам масштабирования (Scaling Laws), чем больше параметров и данных, тем выше производительность . Афшин приводит эмпирическое правило (rule of thumb): на каждый параметр модели должно приходиться не менее 20 токенов обучающих данных . Так, модель на 100 миллиардов параметров требует минимум 2 триллиона токенов .
Этапы подготовки модели:
- Pre-training (Предобучение): обучение на триллионах токенов для понимания структуры языка и кода .
- SFT (Supervised Fine-Tuning): обучение на парах «вопрос-ответ» для формирования нужного поведения .
- Preference Tuning (Выравнивание): использование обратной связи от человека (RLHF), чтобы научить модель выбирать более безопасные и полезные ответы .
Особое внимание лектор уделяет алгоритмам обучения с подкреплением. По мнению Афшина, алгоритм GRPO (Group Relative Policy Optimization) в 2025 году вытесняет классический PPO (Proximal Policy Optimization) . В отличие от PPO, GRPO не требует отдельной «модели ценности» (Value Model), что делает его дешевле в обучении . GRPO генерирует несколько вариантов ответа и сравнивает их награды между собой напрямую . Это особенно эффективно для задач рассуждения, где результат можно проверить математически (Verifiable Reward) .
🖼️ Трансформеры вне текста: Vision Transformer (ViT) 49:14
Хотя трансформеры начинались с машинного перевода, их архитектура универсальна, так как работает с векторами. В 2020 году исследователи представили Vision Transformer (ViT), который применил те же принципы к изображениям .
Механика работы ViT:
- Изображение разбивается на фиксированные фрагменты — патчи (например, 3x3) .
- Каждый патч проецируется в векторное представление (линейный слой) .
- Добавляется позиционный эмбеддинг, чтобы модель знала, где находится фрагмент изображения .
- Данные пропускаются через стандартный энкодер трансформера .
Афшин отмечает удивительный факт: у ViT очень низкое «индуктивное смещение» (inductive bias) по сравнению с конволюционными сетями (CNN) . CNN изначально «заточены» под зрение (сканирование картинки), тогда как ViT позволяет любым частям изображения взаимодействовать друг с другом. При наличии огромных массивов данных ViT начинает превосходить традиционные CNN . На базе этой технологии строятся мультимодальные модели (VLM), такие как LAVA, которые могут «видеть» картинку и отвечать на вопросы по ней в чате .
🌀 Диффузионные LLM: альтернатива авторегрессии 1:04:04
Одной из самых горячих тем 2025 года лекторы называют переход к диффузионным языковым моделям (Diffusion-based LLMs). Традиционные модели являются авторегрессионными: они предсказывают токены по одному, строго последовательно . Проблема в том, что такую генерацию невозможно распараллелить, что ограничивает скорость работы .
Диффузия, пришедшая из генерации изображений, работает иначе. Если в картинках мы начинаем с шума и постепенно «проявляем» объект, то в тексте аналогом шума выступает токен маскирования (MASK) .
Преимущества диффузионных LLM (на примере LLaDA):
- Скорость: генерация может быть до 10 раз быстрее за счет меньшего количества проходов через модель .
- Fill-in-the-middle: такие модели лучше справляются с задачами, где нужно дописать код в середине существующего блока, так как видят контекст с обеих сторон одновременно .
- По аналогии Шервина, авторегрессия — это письмо в строчку слово за словом, а диффузия — это написание речи: сначала набросок (черновик), затем постепенное уточнение деталей по всему тексту .
🔮 Тренды будущего: железо, данные и маленькие модели 1:28:17
Шервин Аммиди завершает лекцию обзором текущих вызовов. Одной из главных проблем он называет «коллапс моделей» (Model Collapse): так как интернет заполняется контентом, созданным ИИ, новые модели начинают обучаться на данных старых моделей . Это ведет к снижению разнообразия и деградации качества . Поэтому критически важной становится курация данных и создание высококачественных «синтетических» датасетов.
Ключевые направления развития:
- SLM (Small Language Models): вместо гигантских моделей фокус смещается на создание маленьких, но эффективных и дешевых в использовании систем .
- Оптимизация железа: современные GPU хороши в умножении матриц, но архитектура трансформеров требует более сложных операций с памятью . По словам Шервина, появляются прототипы аппаратного обеспечения, где вычисления происходят на уровне аналоговых сигналов, что радикально снижает энергопотребление .
- Агенты и демократизация: переход от чат-ботов к автономным агентам, которые могут пользоваться браузером и операционной системой, используя только естественный язык .
Несмотря на прогресс, Шервин считает, что фундаментальные проблемы, такие как галлюцинации, персонализация и непрерывное обучение (способность модели учиться после завершения тренировки), остаются открытыми вопросами для следующего поколения исследователей .