# Хён Вон Чун о будущем ИИ: «Масштабирование важнее структуры»

Источник: https://www.youtube.com/watch?v=orDKvo8h71o
Канал: Stanford Online
Опубликовано: 11.06.2024

---

## Архитектура ИИ: Уроки истории и будущее масштабирования
[[JUMP:01:24]]

В рамках курса Stanford CS25 Хён Вон Чун (Hyung Won Chung), исследователь из OpenAI, представил аналитический взгляд на эволюцию нейросетевых архитектур. Основная идея лекции заключается в том, что в условиях стремительного развития технологий исследователям важно не просто гнаться за последними новинками, а изучать фундаментальные сдвиги, лежащие в основе прогресса. По мнению спикера, понимание этих «движущих сил» позволяет не только прогнозировать траекторию развития ИИ, но и эффективнее проектировать системы будущего.

### ⚖️ Доминирующая движущая сила: экспоненциальное масштабирование
[[JUMP:03:00]]

Хён Вон Чун утверждает, что основной силой, определяющей развитие ИИ-исследований, является экспоненциальное снижение стоимости вычислительных мощностей. Спикер ссылается на графики Рича Саттона, согласно которым за каждые пять лет доступная вычислительная мощность при тех же затратах увеличивается десятикратно.

Ключевые тезисы о масштабировании:

*   **«Горький урок» (The Bitter Lesson):** По мнению Хёна Вон Чуна, последние 70 лет исследований в области ИИ сводятся к одной стратегии — разработке более общих методов с минимальными предварительными предположениями (индуктивными смещениями) при одновременном наращивании данных и вычислительных мощностей.
*   **Ловушка структуры:** Многие подходы, которые кажутся эффективными в краткосрочной перспективе (из-за «моделирования того, как мы думаем»), в долгосрочной становятся препятствием для масштабирования.
*   **Свобода модели:** Чем меньше жестких архитектурных ограничений (индуктивных смещений) получает модель, тем лучше она масштабируется при увеличении объема вычислений.

### 🏗️ Сравнение архитектур: От Encoder-Decoder к Decoder-only
[[JUMP:15:19]]

Хён Вон Чун подробно разобрал три типа архитектур трансформеров, аргументируя, почему современный выбор все чаще падает на Decoder-only (модели типа GPT).

#### 1. Encoder-Decoder (оригинальный Transformer)
[[JUMP:17:29]]
Эта архитектура содержит больше всего «индуктивных смещений» — предположений о том, как должны взаимодействовать входные и выходные данные. Спикер отмечает, что раздельное использование параметров для входа и цели было оправдано в 2017 году, когда основной задачей был машинный перевод между разными языками. Однако сегодня, когда модели должны обучаться знаниям и сложным рассуждениям, такая специализация кажется неестественной.

#### 2. Encoder-only (BERT)
[[JUMP:20:35]]
Популярный в 2018–2019 годах для задач понимания языка (бенчмарк GLUE), этот подход сосредоточен на классификации, а не на генерации. По оценке Хёна Вон Чуна, из-за отказа от генеративных способностей эта архитектура имеет ограниченную полезность в современных универсальных системах.

#### 3. Decoder-only (GPT-3 и далее)
[[JUMP:22:27]]
Несмотря на кажущуюся сложность, эта архитектура наиболее проста в своей реализации. Благодаря причинному (causal) вниманию, она способна выполнять задачи типа «последовательность на входе — последовательность на выходе» без необходимости в раздельных энкодерах и декодерах.

### 🛠️ Почему «более простое» означает «более мощное»
[[JUMP:23:44]]

Спикер наглядно продемонстрировал, что многие дополнительные блоки в классических трансформерах (такие как кросс-внимание) на практике можно устранить, превратив архитектуру в единый стек параметров.

Основные аргументы против «избыточной» структуры:

*   **Инженерная эффективность:** Однонаправленное (uni-directional) внимание в декодерах гораздо лучше подходит для многоходовых чат-приложений. Оно позволяет кэшировать предыдущие вычисления, в то время как двунаправленное (bi-directional) внимание требует пересчета всего контекста при каждом новом шаге.
*   **Иерархические проблемы:** В моделях Encoder-Decoder верхние слои декодера обращаются к финальному выходу энкодера. По мнению Хёна Вон Чуна, это может создавать «информационное бутылочное горлышко», так как уровни абстракции на разных этапах сети сильно отличаются.
*   **Опыт Flan-T5:** Спикер поделился личным опытом работы над Flan-T5, где неожиданно лучшие результаты показали модели, обученные на специфических академических датасетах с длинными входными последовательностями. Он связывает это с тем, что архитектура Encoder-Decoder случайно оказалась подходящей для распределения «длинный ввод — короткий вывод», но отмечает, что для современных задач с длинными генерациями это преимущество нивелируется.

В заключение Хён Вон Чун призвал студентов и исследователей критически пересматривать существующие архитектурные решения. По его словам, многие современные «правила» являются лишь историческими артефактами, которые больше не помогают, а лишь ограничивают потенциал масштабирования.