Будущее LLM в 2025 году: от авторегрессии к диффузии и аналоговым чипам

Курс CME295 в Стэнфордском университете завершился лекцией, посвященной не только ретроспективе пройденного материала, но и анализу самых свежих технологических прорывов 2025 года. Преподаватели Афшин и Шервин подвели итоги эволюции архитектуры трансформеров — от первых механизмов self-attention до современных диффузионных языковых моделей и специализированного «аналогового» оборудования для ИИ.

🔄 Ретроспектива: от Word2Vec до современных LLM 1:13

История современных больших языковых моделей (LLM) началась с поиска эффективных способов представления текста. Афшин напомнил, что на заре развития области использовался механизм токенизации, разделяющий входные данные на атомарные единицы (токены), и алгоритмы вроде Word2Vec . Однако ранние методы имели существенный недостаток: они не учитывали контекст — одно и то же слово имело одинаковый вектор в разных предложениях .

По мнению Афшина, ключевым прорывом стал переход от рекуррентных нейронных сетей (RNN), страдавших от проблемы долгосрочных зависимостей, к механизму self-attention . Этот механизм позволил токенам «взаимодействовать» друг с другом напрямую, независимо от их расстояния в тексте.

Эволюция архитектур привела к разделению моделей на три типа:

Encoder-only (например, BERT): отлично подходят для создания эмбеддингов и классификации .
Decoder-only (например, GPT): стандарт для генерации текста в авторегрессионном режиме .
Encoder-Decoder (например, T5): универсальные модели для задач «текст-в-текст» .

🛠 Масштабирование и эффективность обучения 15:30

Одной из центральных тем курса стали «законы масштабирования» (Scaling Laws). Афшин подчеркнул, что в начале 2020-х годов индустрия жила по принципу «чем больше модель, тем лучше результат» . Однако позже выяснилось, что многие модели были «недообучены» (undertrained) из-за нехватки данных.

Согласно правилу Chinchilla, которое упомянул лектор, для оптимального обучения на каждый параметр модели должно приходиться не менее 20 токенов данных . Так, модель на 100 миллиардов параметров требует обучающей выборки объемом в 2 триллиона токенов .

Для работы с такими масштабами потребовались технологические хитрости:

Flash Attention: метод, оптимизирующий чтение и запись между медленной (HBM) и быстрой (SRAM) памятью GPU . Он позволяет ускорить вычисления, иногда за счет повторного пересчета данных вместо их хранения .
Mixture of Experts (MoE): архитектура, где для каждого токена активируется лишь подмножество «экспертов» (нейросетевых слоев), что снижает вычислительную нагрузку при сохранении общего объема знаний .

🧠 Рассуждения и новые алгоритмы обучения (PPO vs GRPO) 29:51

В 2024–2025 годах фокус сместился с простой генерации текста на способности моделей к рассуждению (reasoning). По словам Афшина, это достигается за счет обучения моделей выстраивать цепочку мыслей (Chain of Thought) перед выдачей финального ответа .

Основным инструментом здесь стало обучение с подкреплением (RL). Если раньше стандартом был алгоритм PPO, то сейчас доминирует GRPO (Group Relative Policy Optimization) .

Ключевые отличия GRPO от PPO, выделенные лектором:

Отсутствие модели ценности (Value Model): GRPO не требует отдельной нейросети для предсказания вознаграждения, что экономит ресурсы .
Групповое сравнение: модель генерирует сразу несколько вариантов ответа и сравнивает их между собой, вычисляя относительное преимущество .
Верифицируемые награды: в задачах на логику и математику правильность ответа можно проверить программно, не полагаясь на субъективную «модель награды» .

🖼 Выход за пределы текста: Vision Transformers (ViT) 49:01

Трансформеры доказали свою эффективность не только в работе с текстом, но и в компьютерном зрении. Афшин объяснил концепцию Vision Transformer (ViT): изображение разбивается на «патчи» (кусочки), которые превращаются в векторы и подаются на вход энкодеру как обычные токены .

Интересным наблюдением лектора стало сравнение ViT с традиционными сверточными сетями (CNN). У CNN есть «индуктивное смещение» (inductive bias) — они изначально спроектированы под структуру изображений . У ViT такое смещение минимально, но, как утверждает Афшин, при наличии огромного объема данных трансформер начинает превосходить CNN, самостоятельно выучивая структуру визуального мира .

⚡️ Диффузионные LLM: конец авторегрессии? 1:04:04

Одной из самых горячих тем 2025 года стали диффузионные языковые модели (DLLM). Традиционные модели являются авторегрессионными (ARM) — они генерируют текст по одному токену за раз, что невозможно распараллелить на этапе инференса .

Афшин привел аналогию со скульптором (цитируя Микеланджело): создание статуи — это удаление лишнего мрамора из глыбы . Диффузионные модели работают похоже: они начинают с «шума» (в тексте это полностью замаскированная последовательность токенов) и за несколько шагов «проявляют» финальный текст .

Преимущества диффузионных LLM, по мнению лектора:

Скорость: генерация может быть до 10 раз быстрее, так как требует фиксированного (и небольшого) количества проходов через сеть, независимо от длины текста .
Редактирование: такие модели лучше справляются с задачами типа fill-in-the-middle (заполнение пропусков в середине кода или текста) .

🚀 Будущее ИИ: оборудование и данные 1:23:42

Шервин завершил лекцию обзором долгосрочных трендов. Он отметил, что мы переходим в эру «вторичной границы Парето», где важнее не сырая мощь, а стоимость и эффективность предсказаний . Это порождает спрос на малые языковые модели (SLM).

Важные технические изменения, упомянутые Шервином:

Новые оптимизаторы: на смену Adam приходит Muon, который показывает многообещающие результаты в скорости сходимости моделей .
Проблема «коллапса моделей»: Шервин выразил опасение, что обучение новых ИИ на данных, сгенерированных старыми ИИ, ведет к снижению разнообразия и деградации интеллекта моделей .
Аналоговое оборудование: обсуждаются архитектуры, использующие физические законы (например, закон Кирхгофа) для выполнения матричных вычислений с помощью аналоговых сигналов, что на порядки снижает энергопотребление .

По прогнозу Шервина, в ближайшем будущем нас ждет глубокая интеграция ИИ-агентов на уровне операционных систем и массовая демократизация агентных рабочих процессов, которые раньше были доступны только специалистам .