Хён Вон Чун о будущем ИИ: «Масштабирование важнее структуры»

Stanford Online 210 тыс. 36 мин 3 мин 11.06.2024
Главное

Архитектура ИИ: Уроки истории и будущее масштабирования 1:24

В рамках курса Stanford CS25 Хён Вон Чун (Hyung Won Chung), исследователь из OpenAI, представил аналитический взгляд на эволюцию нейросетевых архитектур. Основная идея лекции заключается в том, что в условиях стремительного развития технологий исследователям важно не просто гнаться за последними новинками, а изучать фундаментальные сдвиги, лежащие в основе прогресса. По мнению спикера, понимание этих «движущих сил» позволяет не только прогнозировать траекторию развития ИИ, но и эффективнее проектировать системы будущего.

⚖️ Доминирующая движущая сила: экспоненциальное масштабирование 3:00

Хён Вон Чун утверждает, что основной силой, определяющей развитие ИИ-исследований, является экспоненциальное снижение стоимости вычислительных мощностей. Спикер ссылается на графики Рича Саттона, согласно которым за каждые пять лет доступная вычислительная мощность при тех же затратах увеличивается десятикратно.

Ключевые тезисы о масштабировании:

🏗️ Сравнение архитектур: От Encoder-Decoder к Decoder-only 15:19

Хён Вон Чун подробно разобрал три типа архитектур трансформеров, аргументируя, почему современный выбор все чаще падает на Decoder-only (модели типа GPT).

1. Encoder-Decoder (оригинальный Transformer) 17:29

Эта архитектура содержит больше всего «индуктивных смещений» — предположений о том, как должны взаимодействовать входные и выходные данные. Спикер отмечает, что раздельное использование параметров для входа и цели было оправдано в 2017 году, когда основной задачей был машинный перевод между разными языками. Однако сегодня, когда модели должны обучаться знаниям и сложным рассуждениям, такая специализация кажется неестественной.

2. Encoder-only (BERT) 20:35

Популярный в 2018–2019 годах для задач понимания языка (бенчмарк GLUE), этот подход сосредоточен на классификации, а не на генерации. По оценке Хёна Вон Чуна, из-за отказа от генеративных способностей эта архитектура имеет ограниченную полезность в современных универсальных системах.

3. Decoder-only (GPT-3 и далее) 22:27

Несмотря на кажущуюся сложность, эта архитектура наиболее проста в своей реализации. Благодаря причинному (causal) вниманию, она способна выполнять задачи типа «последовательность на входе — последовательность на выходе» без необходимости в раздельных энкодерах и декодерах.

🛠️ Почему «более простое» означает «более мощное» 23:44

Спикер наглядно продемонстрировал, что многие дополнительные блоки в классических трансформерах (такие как кросс-внимание) на практике можно устранить, превратив архитектуру в единый стек параметров.

Основные аргументы против «избыточной» структуры:

В заключение Хён Вон Чун призвал студентов и исследователей критически пересматривать существующие архитектурные решения. По его словам, многие современные «правила» являются лишь историческими артефактами, которые больше не помогают, а лишь ограничивают потенциал масштабирования.

💬 Цитаты

«Мы пытаемся моделировать то, о чем не имеем ни малейшего представления.»

Хён Вон Чун 09:37

«Не конкурируйте с законом масштабирования, лучше максимально используйте его в своих интересах.»

Хён Вон Чун 11:08
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер
Архитектура нейронных сетей, основанная на механизме внимания, ставшая стандартом для современных языковых моделей.
Индуктивное смещение
Набор предположений, которые модель использует для предсказания результатов на основе ограниченных данных.
Causal self-attention
Механизм внимания, при котором каждый токен может «видеть» только предыдущие, что необходимо для генерации текста.
Флагманские модели (Flan)
Семейство моделей, прошедших дообучение на инструктивных данных для лучшего понимания естественного языка.
📊 Цифры
🗓 Хронология
  1. 2017 Представлена оригинальная архитектура Transformer.
  2. 2018 Выход модели BERT, популяризировавшей архитектуру Encoder-only.
⚖️ Другая сторона
Искусственный интеллект OpenAI Transformer Scaling Laws Decoder-only