Курс CME295 в Стэнфордском университете завершился лекцией, посвященной не только ретроспективе пройденного материала, но и анализу самых свежих технологических прорывов 2025 года. Преподаватели Афшин и Шервин подвели итоги эволюции архитектуры трансформеров — от первых механизмов self-attention до современных диффузионных языковых моделей и специализированного «аналогового» оборудования для ИИ.
🔄 Ретроспектива: от Word2Vec до современных LLM 1:13
История современных больших языковых моделей (LLM) началась с поиска эффективных способов представления текста. Афшин напомнил, что на заре развития области использовался механизм токенизации, разделяющий входные данные на атомарные единицы (токены), и алгоритмы вроде Word2Vec . Однако ранние методы имели существенный недостаток: они не учитывали контекст — одно и то же слово имело одинаковый вектор в разных предложениях .
По мнению Афшина, ключевым прорывом стал переход от рекуррентных нейронных сетей (RNN), страдавших от проблемы долгосрочных зависимостей, к механизму self-attention . Этот механизм позволил токенам «взаимодействовать» друг с другом напрямую, независимо от их расстояния в тексте.
Эволюция архитектур привела к разделению моделей на три типа:
- Encoder-only (например, BERT): отлично подходят для создания эмбеддингов и классификации .
- Decoder-only (например, GPT): стандарт для генерации текста в авторегрессионном режиме .
- Encoder-Decoder (например, T5): универсальные модели для задач «текст-в-текст» .
🛠 Масштабирование и эффективность обучения 15:30
Одной из центральных тем курса стали «законы масштабирования» (Scaling Laws). Афшин подчеркнул, что в начале 2020-х годов индустрия жила по принципу «чем больше модель, тем лучше результат» . Однако позже выяснилось, что многие модели были «недообучены» (undertrained) из-за нехватки данных.
Согласно правилу Chinchilla, которое упомянул лектор, для оптимального обучения на каждый параметр модели должно приходиться не менее 20 токенов данных . Так, модель на 100 миллиардов параметров требует обучающей выборки объемом в 2 триллиона токенов .
Для работы с такими масштабами потребовались технологические хитрости:
- Flash Attention: метод, оптимизирующий чтение и запись между медленной (HBM) и быстрой (SRAM) памятью GPU . Он позволяет ускорить вычисления, иногда за счет повторного пересчета данных вместо их хранения .
- Mixture of Experts (MoE): архитектура, где для каждого токена активируется лишь подмножество «экспертов» (нейросетевых слоев), что снижает вычислительную нагрузку при сохранении общего объема знаний .
🧠 Рассуждения и новые алгоритмы обучения (PPO vs GRPO) 29:51
В 2024–2025 годах фокус сместился с простой генерации текста на способности моделей к рассуждению (reasoning). По словам Афшина, это достигается за счет обучения моделей выстраивать цепочку мыслей (Chain of Thought) перед выдачей финального ответа .
Основным инструментом здесь стало обучение с подкреплением (RL). Если раньше стандартом был алгоритм PPO, то сейчас доминирует GRPO (Group Relative Policy Optimization) .
Ключевые отличия GRPO от PPO, выделенные лектором:
- Отсутствие модели ценности (Value Model): GRPO не требует отдельной нейросети для предсказания вознаграждения, что экономит ресурсы .
- Групповое сравнение: модель генерирует сразу несколько вариантов ответа и сравнивает их между собой, вычисляя относительное преимущество .
- Верифицируемые награды: в задачах на логику и математику правильность ответа можно проверить программно, не полагаясь на субъективную «модель награды» .
🖼 Выход за пределы текста: Vision Transformers (ViT) 49:01
Трансформеры доказали свою эффективность не только в работе с текстом, но и в компьютерном зрении. Афшин объяснил концепцию Vision Transformer (ViT): изображение разбивается на «патчи» (кусочки), которые превращаются в векторы и подаются на вход энкодеру как обычные токены .
Интересным наблюдением лектора стало сравнение ViT с традиционными сверточными сетями (CNN). У CNN есть «индуктивное смещение» (inductive bias) — они изначально спроектированы под структуру изображений . У ViT такое смещение минимально, но, как утверждает Афшин, при наличии огромного объема данных трансформер начинает превосходить CNN, самостоятельно выучивая структуру визуального мира .
⚡️ Диффузионные LLM: конец авторегрессии? 1:04:04
Одной из самых горячих тем 2025 года стали диффузионные языковые модели (DLLM). Традиционные модели являются авторегрессионными (ARM) — они генерируют текст по одному токену за раз, что невозможно распараллелить на этапе инференса .
Афшин привел аналогию со скульптором (цитируя Микеланджело): создание статуи — это удаление лишнего мрамора из глыбы . Диффузионные модели работают похоже: они начинают с «шума» (в тексте это полностью замаскированная последовательность токенов) и за несколько шагов «проявляют» финальный текст .
Преимущества диффузионных LLM, по мнению лектора:
- Скорость: генерация может быть до 10 раз быстрее, так как требует фиксированного (и небольшого) количества проходов через сеть, независимо от длины текста .
- Редактирование: такие модели лучше справляются с задачами типа fill-in-the-middle (заполнение пропусков в середине кода или текста) .
🚀 Будущее ИИ: оборудование и данные 1:23:42
Шервин завершил лекцию обзором долгосрочных трендов. Он отметил, что мы переходим в эру «вторичной границы Парето», где важнее не сырая мощь, а стоимость и эффективность предсказаний . Это порождает спрос на малые языковые модели (SLM).
Важные технические изменения, упомянутые Шервином:
- Новые оптимизаторы: на смену Adam приходит Muon, который показывает многообещающие результаты в скорости сходимости моделей .
- Проблема «коллапса моделей»: Шервин выразил опасение, что обучение новых ИИ на данных, сгенерированных старыми ИИ, ведет к снижению разнообразия и деградации интеллекта моделей .
- Аналоговое оборудование: обсуждаются архитектуры, использующие физические законы (например, закон Кирхгофа) для выполнения матричных вычислений с помощью аналоговых сигналов, что на порядки снижает энергопотребление .
По прогнозу Шервина, в ближайшем будущем нас ждет глубокая интеграция ИИ-агентов на уровне операционных систем и массовая демократизация агентных рабочих процессов, которые раньше были доступны только специалистам .