Хён Вон Чун о будущем ИИ: «Масштабирование важнее структуры»

Архитектура ИИ: Уроки истории и будущее масштабирования 1:24

В рамках курса Stanford CS25 Хён Вон Чун (Hyung Won Chung), исследователь из OpenAI, представил аналитический взгляд на эволюцию нейросетевых архитектур. Основная идея лекции заключается в том, что в условиях стремительного развития технологий исследователям важно не просто гнаться за последними новинками, а изучать фундаментальные сдвиги, лежащие в основе прогресса. По мнению спикера, понимание этих «движущих сил» позволяет не только прогнозировать траекторию развития ИИ, но и эффективнее проектировать системы будущего.

⚖️ Доминирующая движущая сила: экспоненциальное масштабирование 3:00

Хён Вон Чун утверждает, что основной силой, определяющей развитие ИИ-исследований, является экспоненциальное снижение стоимости вычислительных мощностей. Спикер ссылается на графики Рича Саттона, согласно которым за каждые пять лет доступная вычислительная мощность при тех же затратах увеличивается десятикратно.

Ключевые тезисы о масштабировании:

«Горький урок» (The Bitter Lesson): По мнению Хёна Вон Чуна, последние 70 лет исследований в области ИИ сводятся к одной стратегии — разработке более общих методов с минимальными предварительными предположениями (индуктивными смещениями) при одновременном наращивании данных и вычислительных мощностей.
Ловушка структуры: Многие подходы, которые кажутся эффективными в краткосрочной перспективе (из-за «моделирования того, как мы думаем»), в долгосрочной становятся препятствием для масштабирования.
Свобода модели: Чем меньше жестких архитектурных ограничений (индуктивных смещений) получает модель, тем лучше она масштабируется при увеличении объема вычислений.

🏗️ Сравнение архитектур: От Encoder-Decoder к Decoder-only 15:19

Хён Вон Чун подробно разобрал три типа архитектур трансформеров, аргументируя, почему современный выбор все чаще падает на Decoder-only (модели типа GPT).

1. Encoder-Decoder (оригинальный Transformer) 17:29

Эта архитектура содержит больше всего «индуктивных смещений» — предположений о том, как должны взаимодействовать входные и выходные данные. Спикер отмечает, что раздельное использование параметров для входа и цели было оправдано в 2017 году, когда основной задачей был машинный перевод между разными языками. Однако сегодня, когда модели должны обучаться знаниям и сложным рассуждениям, такая специализация кажется неестественной.

2. Encoder-only (BERT) 20:35

Популярный в 2018–2019 годах для задач понимания языка (бенчмарк GLUE), этот подход сосредоточен на классификации, а не на генерации. По оценке Хёна Вон Чуна, из-за отказа от генеративных способностей эта архитектура имеет ограниченную полезность в современных универсальных системах.

3. Decoder-only (GPT-3 и далее) 22:27

Несмотря на кажущуюся сложность, эта архитектура наиболее проста в своей реализации. Благодаря причинному (causal) вниманию, она способна выполнять задачи типа «последовательность на входе — последовательность на выходе» без необходимости в раздельных энкодерах и декодерах.

🛠️ Почему «более простое» означает «более мощное» 23:44

Спикер наглядно продемонстрировал, что многие дополнительные блоки в классических трансформерах (такие как кросс-внимание) на практике можно устранить, превратив архитектуру в единый стек параметров.

Основные аргументы против «избыточной» структуры:

Инженерная эффективность: Однонаправленное (uni-directional) внимание в декодерах гораздо лучше подходит для многоходовых чат-приложений. Оно позволяет кэшировать предыдущие вычисления, в то время как двунаправленное (bi-directional) внимание требует пересчета всего контекста при каждом новом шаге.
Иерархические проблемы: В моделях Encoder-Decoder верхние слои декодера обращаются к финальному выходу энкодера. По мнению Хёна Вон Чуна, это может создавать «информационное бутылочное горлышко», так как уровни абстракции на разных этапах сети сильно отличаются.
Опыт Flan-T5: Спикер поделился личным опытом работы над Flan-T5, где неожиданно лучшие результаты показали модели, обученные на специфических академических датасетах с длинными входными последовательностями. Он связывает это с тем, что архитектура Encoder-Decoder случайно оказалась подходящей для распределения «длинный ввод — короткий вывод», но отмечает, что для современных задач с длинными генерациями это преимущество нивелируется.

В заключение Хён Вон Чун призвал студентов и исследователей критически пересматривать существующие архитектурные решения. По его словам, многие современные «правила» являются лишь историческими артефактами, которые больше не помогают, а лишь ограничивают потенциал масштабирования.