OpenAI в Стэнфорде: почему масштаб важнее архитектуры и как работает «магия» LLM

Stanford Online 200 тыс. 1 ч 17 мин 5 мин 06.05.2024
Главное

В рамках курса CS25 в Стэнфордском университете исследователи из OpenAI Джейсон Вей (Jason Wei) и Хён Вон Чун (Hyung Won Chung) представили глубокий анализ механизмов работы больших языковых моделей (LLM). В центре внимания — причины эффективности предсказания следующего слова, феномен эмерджентных способностей и эволюция архитектуры трансформеров от сложных структур к предельной простоте.

🧠 Магия предсказания следующего слова: почему это работает 1:11

Джейсон Вей начал выступление с фундаментального вопроса: почему задача предсказания следующего слова (next-word prediction) порождает столь продвинутый интеллект? . По его мнению, этот процесс следует рассматривать как массовое многозадачное обучение (massively multi-task learning) .

Когда модель обучается на гигантском массиве данных, она вынуждена осваивать миллионы подзадач для минимизации потерь:

Вей приводит пример предложения из Википедии о Джо Байдене, чтобы показать сложность задачи: предсказание запятой, фамилии первой жены («Хантер») или статуса («студент») требует от модели одновременного владения пунктуацией, историческими фактами и логикой построения текста . Таким образом, минимизация общей функции потерь (loss) неизбежно ведет к улучшению когнитивных способностей модели .

📈 Законы масштабирования и интуиция моделей 9:13

Одним из ключевых принципов современной разработки ИИ являются законы масштабирования (Scaling Laws), популяризированные в работе Kaplan et al. (2020) . Согласно этим законам, увеличение объема вычислительных мощностей (compute), который равен произведению объема данных на количество параметров модели, предсказуемо и плавно снижает функцию потерь .

Джейсон Вей предлагает две «интуитивные» причины, почему большие модели работают лучше:

  1. Запоминание редких фактов (Tail Knowledge): малые модели вынуждены быть избирательными и запоминать только самые частотные факты. Большие модели могут позволить себе хранить в параметрах огромное количество специфической информации .
  2. Сложные эвристики: малые модели тратят ресурсы на базовую грамматику. Большие модели используют избыточные параметры для выполнения сложных логических операций в рамках прямого прохода (forward pass) .

🚀 Эмерджентные способности: когда прогресс случается внезапно 13:08

Важное наблюдение Вея заключается в том, что хотя общая функция потерь снижается плавно, точность выполнения конкретных задач может расти скачкообразно . Проанализировав 202 задачи из корпуса Big Bench, Вей выделил следующую статистику их прогресса по мере масштабирования:

Примером сложного поведения является U-образное масштабирование (U-shaped scaling). Вей разобрал задачу: «Повторяй за мной: не всё то золото, что блестит (all that glisters is not gold.

📉 «Горький урок» и доминирующая сила ИИ 31:18

Хён Вон Чун продолжил лекцию, сфокусировавшись на методологии прогнозирования будущего ИИ. Его главный тезис: нужно изучать не последние новости недели, а «саму природу изменений» . По мнению Чуна, в индустрии ИИ существует одна доминирующая сила — экспоненциальное удешевление вычислений .

Он опирается на эссе Ричарда Саттона «Горький урок» (The Bitter Lesson):

🏗️ Эволюция Трансформеров: от Encoder-Decoder к Decoder-only 45:30

Хён Вон Чун подробно разобрал, почему индустрия отказалась от оригинальной архитектуры Трансформера (2017) в пользу упрощенных моделей «только декодер» (Decoder-only), таких как GPT-3 .

Оригинальный Transformer (Encoder-Decoder) имел сложную структуру:

  1. Раздельные параметры для входной и выходной последовательностей .
  2. Cross-attention механизм, где каждый слой декодера обращается к последнему слою энкодера .
  3. Двунаправленное внимание (Bidirectional) в энкодере .

Чун утверждает, что эти архитектурные изыски были «костылями» в эпоху ограниченных данных и вычислений. С переходом к масштабированию выяснилось:

🔮 Будущие узкие места: за пределами архитектуры 1:12:37

На вопрос о том, что станет следующим препятствием для развития ИИ, Хён Вон Чун ответил, что это не архитектура . Протестировав более 60 модификаций Трансформера, исследователи OpenAI пришли к выводу, что большинство из них не дают значимого прироста при масштабировании .

Главные проблемы лежат в других областях:

Чун оптимистично предположил, что со временем машины сами начнут проектировать чипы лучше людей, что позволит поддерживать экспоненциальный рост вычислителей .

💬 Цитаты

«Предсказание следующего слова — это действительно сложная задача. Делая это на огромной базе данных, вы осваиваете миллионы подзадач.»

Джейсон Вей 08:40

«Методы, имитирующие человеческое мышление, становятся бутылочным горлышком. Нам нужно меньше структуры и больше свободы для моделей.»

Хён Вон Чун 40:33
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Scaling Laws (Законы масштабирования)
Эмпирические правила, описывающие, как точность модели предсказуемо растет с увеличением данных, параметров и вычислений.
The Bitter Lesson (Горький урок)
Тезис Ричарда Саттона о том, что общие методы вычислений всегда побеждают подходы, основанные на человеческих знаниях.
Inductive Bias (Индуктивное смещение)
Априорные предположения, заложенные разработчиком в архитектуру модели для ускорения обучения на малых данных.
MLE (Maximum Likelihood Estimation)
Метод обучения, при котором модель учится максимизировать вероятность правильного следующего слова из обучающей выборки.
📊 Цифры
🗓 Хронология
  1. 2017 Выход оригинальной статьи о Трансформере (Encoder-Decoder).
  2. 2018 Популяризация BERT и архитектуры Encoder-only.
  3. 2020 Публикация статьи Каплана о законах масштабирования.
⚖️ Другая сторона
Искусственный интеллект OpenAI Scaling Laws Transformer Jason Wei Hyung Won Chung