Архитектура ИИ: Уроки истории и будущее масштабирования 1:24
В рамках курса Stanford CS25 Хён Вон Чун (Hyung Won Chung), исследователь из OpenAI, представил аналитический взгляд на эволюцию нейросетевых архитектур. Основная идея лекции заключается в том, что в условиях стремительного развития технологий исследователям важно не просто гнаться за последними новинками, а изучать фундаментальные сдвиги, лежащие в основе прогресса. По мнению спикера, понимание этих «движущих сил» позволяет не только прогнозировать траекторию развития ИИ, но и эффективнее проектировать системы будущего.
⚖️ Доминирующая движущая сила: экспоненциальное масштабирование 3:00
Хён Вон Чун утверждает, что основной силой, определяющей развитие ИИ-исследований, является экспоненциальное снижение стоимости вычислительных мощностей. Спикер ссылается на графики Рича Саттона, согласно которым за каждые пять лет доступная вычислительная мощность при тех же затратах увеличивается десятикратно.
Ключевые тезисы о масштабировании:
- «Горький урок» (The Bitter Lesson): По мнению Хёна Вон Чуна, последние 70 лет исследований в области ИИ сводятся к одной стратегии — разработке более общих методов с минимальными предварительными предположениями (индуктивными смещениями) при одновременном наращивании данных и вычислительных мощностей.
- Ловушка структуры: Многие подходы, которые кажутся эффективными в краткосрочной перспективе (из-за «моделирования того, как мы думаем»), в долгосрочной становятся препятствием для масштабирования.
- Свобода модели: Чем меньше жестких архитектурных ограничений (индуктивных смещений) получает модель, тем лучше она масштабируется при увеличении объема вычислений.
🏗️ Сравнение архитектур: От Encoder-Decoder к Decoder-only 15:19
Хён Вон Чун подробно разобрал три типа архитектур трансформеров, аргументируя, почему современный выбор все чаще падает на Decoder-only (модели типа GPT).
1. Encoder-Decoder (оригинальный Transformer) 17:29
Эта архитектура содержит больше всего «индуктивных смещений» — предположений о том, как должны взаимодействовать входные и выходные данные. Спикер отмечает, что раздельное использование параметров для входа и цели было оправдано в 2017 году, когда основной задачей был машинный перевод между разными языками. Однако сегодня, когда модели должны обучаться знаниям и сложным рассуждениям, такая специализация кажется неестественной.
2. Encoder-only (BERT) 20:35
Популярный в 2018–2019 годах для задач понимания языка (бенчмарк GLUE), этот подход сосредоточен на классификации, а не на генерации. По оценке Хёна Вон Чуна, из-за отказа от генеративных способностей эта архитектура имеет ограниченную полезность в современных универсальных системах.
3. Decoder-only (GPT-3 и далее) 22:27
Несмотря на кажущуюся сложность, эта архитектура наиболее проста в своей реализации. Благодаря причинному (causal) вниманию, она способна выполнять задачи типа «последовательность на входе — последовательность на выходе» без необходимости в раздельных энкодерах и декодерах.
🛠️ Почему «более простое» означает «более мощное» 23:44
Спикер наглядно продемонстрировал, что многие дополнительные блоки в классических трансформерах (такие как кросс-внимание) на практике можно устранить, превратив архитектуру в единый стек параметров.
Основные аргументы против «избыточной» структуры:
- Инженерная эффективность: Однонаправленное (uni-directional) внимание в декодерах гораздо лучше подходит для многоходовых чат-приложений. Оно позволяет кэшировать предыдущие вычисления, в то время как двунаправленное (bi-directional) внимание требует пересчета всего контекста при каждом новом шаге.
- Иерархические проблемы: В моделях Encoder-Decoder верхние слои декодера обращаются к финальному выходу энкодера. По мнению Хёна Вон Чуна, это может создавать «информационное бутылочное горлышко», так как уровни абстракции на разных этапах сети сильно отличаются.
- Опыт Flan-T5: Спикер поделился личным опытом работы над Flan-T5, где неожиданно лучшие результаты показали модели, обученные на специфических академических датасетах с длинными входными последовательностями. Он связывает это с тем, что архитектура Encoder-Decoder случайно оказалась подходящей для распределения «длинный ввод — короткий вывод», но отмечает, что для современных задач с длинными генерациями это преимущество нивелируется.
В заключение Хён Вон Чун призвал студентов и исследователей критически пересматривать существующие архитектурные решения. По его словам, многие современные «правила» являются лишь историческими артефактами, которые больше не помогают, а лишь ограничивают потенциал масштабирования.