Будущее LLM в 2025 году: от авторегрессии к диффузии и аналоговым чипам

Stanford Online 123 тыс. 1 ч 51 мин 4 мин 09.12.2025
Главное

Курс CME295 в Стэнфордском университете завершился лекцией, посвященной не только ретроспективе пройденного материала, но и анализу самых свежих технологических прорывов 2025 года. Преподаватели Афшин и Шервин подвели итоги эволюции архитектуры трансформеров — от первых механизмов self-attention до современных диффузионных языковых моделей и специализированного «аналогового» оборудования для ИИ.

🔄 Ретроспектива: от Word2Vec до современных LLM 1:13

История современных больших языковых моделей (LLM) началась с поиска эффективных способов представления текста. Афшин напомнил, что на заре развития области использовался механизм токенизации, разделяющий входные данные на атомарные единицы (токены), и алгоритмы вроде Word2Vec . Однако ранние методы имели существенный недостаток: они не учитывали контекст — одно и то же слово имело одинаковый вектор в разных предложениях .

По мнению Афшина, ключевым прорывом стал переход от рекуррентных нейронных сетей (RNN), страдавших от проблемы долгосрочных зависимостей, к механизму self-attention . Этот механизм позволил токенам «взаимодействовать» друг с другом напрямую, независимо от их расстояния в тексте.

Эволюция архитектур привела к разделению моделей на три типа:

🛠 Масштабирование и эффективность обучения 15:30

Одной из центральных тем курса стали «законы масштабирования» (Scaling Laws). Афшин подчеркнул, что в начале 2020-х годов индустрия жила по принципу «чем больше модель, тем лучше результат» . Однако позже выяснилось, что многие модели были «недообучены» (undertrained) из-за нехватки данных.

Согласно правилу Chinchilla, которое упомянул лектор, для оптимального обучения на каждый параметр модели должно приходиться не менее 20 токенов данных . Так, модель на 100 миллиардов параметров требует обучающей выборки объемом в 2 триллиона токенов .

Для работы с такими масштабами потребовались технологические хитрости:

🧠 Рассуждения и новые алгоритмы обучения (PPO vs GRPO) 29:51

В 2024–2025 годах фокус сместился с простой генерации текста на способности моделей к рассуждению (reasoning). По словам Афшина, это достигается за счет обучения моделей выстраивать цепочку мыслей (Chain of Thought) перед выдачей финального ответа .

Основным инструментом здесь стало обучение с подкреплением (RL). Если раньше стандартом был алгоритм PPO, то сейчас доминирует GRPO (Group Relative Policy Optimization) .

Ключевые отличия GRPO от PPO, выделенные лектором:

  1. Отсутствие модели ценности (Value Model): GRPO не требует отдельной нейросети для предсказания вознаграждения, что экономит ресурсы .
  2. Групповое сравнение: модель генерирует сразу несколько вариантов ответа и сравнивает их между собой, вычисляя относительное преимущество .
  3. Верифицируемые награды: в задачах на логику и математику правильность ответа можно проверить программно, не полагаясь на субъективную «модель награды» .

🖼 Выход за пределы текста: Vision Transformers (ViT) 49:01

Трансформеры доказали свою эффективность не только в работе с текстом, но и в компьютерном зрении. Афшин объяснил концепцию Vision Transformer (ViT): изображение разбивается на «патчи» (кусочки), которые превращаются в векторы и подаются на вход энкодеру как обычные токены .

Интересным наблюдением лектора стало сравнение ViT с традиционными сверточными сетями (CNN). У CNN есть «индуктивное смещение» (inductive bias) — они изначально спроектированы под структуру изображений . У ViT такое смещение минимально, но, как утверждает Афшин, при наличии огромного объема данных трансформер начинает превосходить CNN, самостоятельно выучивая структуру визуального мира .

⚡️ Диффузионные LLM: конец авторегрессии? 1:04:04

Одной из самых горячих тем 2025 года стали диффузионные языковые модели (DLLM). Традиционные модели являются авторегрессионными (ARM) — они генерируют текст по одному токену за раз, что невозможно распараллелить на этапе инференса .

Афшин привел аналогию со скульптором (цитируя Микеланджело): создание статуи — это удаление лишнего мрамора из глыбы . Диффузионные модели работают похоже: они начинают с «шума» (в тексте это полностью замаскированная последовательность токенов) и за несколько шагов «проявляют» финальный текст .

Преимущества диффузионных LLM, по мнению лектора:

🚀 Будущее ИИ: оборудование и данные 1:23:42

Шервин завершил лекцию обзором долгосрочных трендов. Он отметил, что мы переходим в эру «вторичной границы Парето», где важнее не сырая мощь, а стоимость и эффективность предсказаний . Это порождает спрос на малые языковые модели (SLM).

Важные технические изменения, упомянутые Шервином:

По прогнозу Шервина, в ближайшем будущем нас ждет глубокая интеграция ИИ-агентов на уровне операционных систем и массовая демократизация агентных рабочих процессов, которые раньше были доступны только специалистам .

💬 Цитаты

«Скульптура уже завершена внутри мраморного блока. Я просто должен отсечь лишний материал.»

Афшин (цитируя Микеланджело) 1:11:29

«Инференс в авторегрессионных моделях нельзя распараллелить, потому что вам всегда нужно то, что было раньше, чтобы предсказать следующее.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Tokenization
Процесс разбиения текста на мелкие части (токены) для обработки нейросетью.
Self-attention
Механизм, позволяющий модели определять важность разных слов в предложении относительно друг друга.
GRPO
Новый алгоритм обучения с подкреплением, оптимизированный для задач рассуждения без использования Value-модели.
Model Collapse
Деградация качества ИИ при обучении на данных, сгенерированных другими нейросетями.
ViT (Vision Transformer)
Архитектура трансформера, адаптированная для анализа изображений путем разбиения их на патчи.
📊 Цифры
🗓 Хронология
  1. 2017 Выход статьи 'Attention is All You Need', заложившей основу трансформеров.
  2. 2020 Публикация статьи о Vision Transformer (ViT), перенесшей архитектуру в компьютерное зрение.
  3. 2024 Массовый переход к моделям рассуждения (Reasoning) и алгоритмам типа GRPO.
  4. 2025 Активное развитие диффузионных LLM и специализированного аналогового оборудования.
⚖️ Другая сторона
Искусственный интеллект Transformers LLM GRPO Vision Transformer Flash Attention