# Будущее LLM в 2025 году: от авторегрессии к диффузии и аналоговым чипам

Источник: https://www.youtube.com/watch?v=Q86qzJ1K1Ss
Канал: Stanford Online
Опубликовано: 09.12.2025

---

Курс CME295 в Стэнфордском университете завершился лекцией, посвященной не только ретроспективе пройденного материала, но и анализу самых свежих технологических прорывов 2025 года. Преподаватели Афшин и Шервин подвели итоги эволюции архитектуры трансформеров — от первых механизмов self-attention до современных диффузионных языковых моделей и специализированного «аналогового» оборудования для ИИ.

## 🔄 Ретроспектива: от Word2Vec до современных LLM
[[JUMP:01:13]]

История современных больших языковых моделей (LLM) началась с поиска эффективных способов представления текста. Афшин напомнил, что на заре развития области использовался механизм токенизации, разделяющий входные данные на атомарные единицы (токены), и алгоритмы вроде Word2Vec [02:53]. Однако ранние методы имели существенный недостаток: они не учитывали контекст — одно и то же слово имело одинаковый вектор в разных предложениях [03:21].

По мнению Афшина, ключевым прорывом стал переход от рекуррентных нейронных сетей (RNN), страдавших от проблемы долгосрочных зависимостей, к механизму self-attention [04:30]. Этот механизм позволил токенам «взаимодействовать» друг с другом напрямую, независимо от их расстояния в тексте.

Эволюция архитектур привела к разделению моделей на три типа:

*   **Encoder-only (например, BERT):** отлично подходят для создания эмбеддингов и классификации [09:57].
*   **Decoder-only (например, GPT):** стандарт для генерации текста в авторегрессионном режиме [10:27].
*   **Encoder-Decoder (например, T5):** универсальные модели для задач «текст-в-текст» [10:39].

## 🛠 Масштабирование и эффективность обучения
[[JUMP:15:30]]

Одной из центральных тем курса стали «законы масштабирования» (Scaling Laws). Афшин подчеркнул, что в начале 2020-х годов индустрия жила по принципу «чем больше модель, тем лучше результат» [15:44]. Однако позже выяснилось, что многие модели были «недообучены» (undertrained) из-за нехватки данных.

Согласно правилу Chinchilla, которое упомянул лектор, для оптимального обучения на каждый параметр модели должно приходиться не менее 20 токенов данных [17:35]. Так, модель на 100 миллиардов параметров требует обучающей выборки объемом в 2 триллиона токенов [17:50].

Для работы с такими масштабами потребовались технологические хитрости:

*   **Flash Attention:** метод, оптимизирующий чтение и запись между медленной (HBM) и быстрой (SRAM) памятью GPU [18:31]. Он позволяет ускорить вычисления, иногда за счет повторного пересчета данных вместо их хранения [20:00].
*   **Mixture of Experts (MoE):** архитектура, где для каждого токена активируется лишь подмножество «экспертов» (нейросетевых слоев), что снижает вычислительную нагрузку при сохранении общего объема знаний [12:05].

## 🧠 Рассуждения и новые алгоритмы обучения (PPO vs GRPO)
[[JUMP:29:51]]

В 2024–2025 годах фокус сместился с простой генерации текста на способности моделей к рассуждению (reasoning). По словам Афшина, это достигается за счет обучения моделей выстраивать цепочку мыслей (Chain of Thought) перед выдачей финального ответа [30:52].

Основным инструментом здесь стало обучение с подкреплением (RL). Если раньше стандартом был алгоритм PPO, то сейчас доминирует GRPO (Group Relative Policy Optimization) [32:36].

Ключевые отличия GRPO от PPO, выделенные лектором:

1.  **Отсутствие модели ценности (Value Model):** GRPO не требует отдельной нейросети для предсказания вознаграждения, что экономит ресурсы [34:49].
2.  **Групповое сравнение:** модель генерирует сразу несколько вариантов ответа и сравнивает их между собой, вычисляя относительное преимущество [35:09].
3.  **Верифицируемые награды:** в задачах на логику и математику правильность ответа можно проверить программно, не полагаясь на субъективную «модель награды» [36:19].

## 🖼 Выход за пределы текста: Vision Transformers (ViT)
[[JUMP:49:01]]

Трансформеры доказали свою эффективность не только в работе с текстом, но и в компьютерном зрении. Афшин объяснил концепцию Vision Transformer (ViT): изображение разбивается на «патчи» (кусочки), которые превращаются в векторы и подаются на вход энкодеру как обычные токены [53:16].

Интересным наблюдением лектора стало сравнение ViT с традиционными сверточными сетями (CNN). У CNN есть «индуктивное смещение» (inductive bias) — они изначально спроектированы под структуру изображений [54:37]. У ViT такое смещение минимально, но, как утверждает Афшин, при наличии огромного объема данных трансформер начинает превосходить CNN, самостоятельно выучивая структуру визуального мира [55:40].

## ⚡️ Диффузионные LLM: конец авторегрессии?
[[JUMP:1:04:04]]

Одной из самых горячих тем 2025 года стали диффузионные языковые модели (DLLM). Традиционные модели являются авторегрессионными (ARM) — они генерируют текст по одному токену за раз, что невозможно распараллелить на этапе инференса [1:06:13].

Афшин привел аналогию со скульптором (цитируя Микеланджело): создание статуи — это удаление лишнего мрамора из глыбы [1:11:29]. Диффузионные модели работают похоже: они начинают с «шума» (в тексте это полностью замаскированная последовательность токенов) и за несколько шагов «проявляют» финальный текст [1:14:48].

Преимущества диффузионных LLM, по мнению лектора:

*   **Скорость:** генерация может быть до 10 раз быстрее, так как требует фиксированного (и небольшого) количества проходов через сеть, независимо от длины текста [1:20:28].
*   **Редактирование:** такие модели лучше справляются с задачами типа fill-in-the-middle (заполнение пропусков в середине кода или текста) [1:21:28].

## 🚀 Будущее ИИ: оборудование и данные
[[JUMP:1:23:42]]

Шервин завершил лекцию обзором долгосрочных трендов. Он отметил, что мы переходим в эру «вторичной границы Парето», где важнее не сырая мощь, а стоимость и эффективность предсказаний [1:35:51]. Это порождает спрос на малые языковые модели (SLM).

Важные технические изменения, упомянутые Шервином:

*   **Новые оптимизаторы:** на смену Adam приходит Muon, который показывает многообещающие результаты в скорости сходимости моделей [1:29:13].
*   **Проблема «коллапса моделей»:** Шервин выразил опасение, что обучение новых ИИ на данных, сгенерированных старыми ИИ, ведет к снижению разнообразия и деградации интеллекта моделей [1:34:14].
*   **Аналоговое оборудование:** обсуждаются архитектуры, использующие физические законы (например, закон Кирхгофа) для выполнения матричных вычислений с помощью аналоговых сигналов, что на порядки снижает энергопотребление [1:39:19].

По прогнозу Шервина, в ближайшем будущем нас ждет глубокая интеграция ИИ-агентов на уровне операционных систем и массовая демократизация агентных рабочих процессов, которые раньше были доступны только специалистам [1:43:31].