OpenAI в Стэнфорде: почему масштаб важнее архитектуры и как работает «магия» LLM

В рамках курса CS25 в Стэнфордском университете исследователи из OpenAI Джейсон Вей (Jason Wei) и Хён Вон Чун (Hyung Won Chung) представили глубокий анализ механизмов работы больших языковых моделей (LLM). В центре внимания — причины эффективности предсказания следующего слова, феномен эмерджентных способностей и эволюция архитектуры трансформеров от сложных структур к предельной простоте.

🧠 Магия предсказания следующего слова: почему это работает 1:11

Джейсон Вей начал выступление с фундаментального вопроса: почему задача предсказания следующего слова (next-word prediction) порождает столь продвинутый интеллект? . По его мнению, этот процесс следует рассматривать как массовое многозадачное обучение (massively multi-task learning) .

Когда модель обучается на гигантском массиве данных, она вынуждена осваивать миллионы подзадач для минимизации потерь:

Грамматика и лексика: чтобы выбрать между словами «код» и «банан» в контексте программирования .
Мировые знания: знание столиц (например, Баку — столица Азербайджана) напрямую снижает функцию потерь .
Традиционные задачи NLP: анализ тональности отзывов о кино или перевод слов (например, «pretty» на испанский — «bonita») .
Пространственное мышление и математика: отслеживание перемещения персонажей между комнатами или решение арифметических примеров .

Вей приводит пример предложения из Википедии о Джо Байдене, чтобы показать сложность задачи: предсказание запятой, фамилии первой жены («Хантер») или статуса («студент») требует от модели одновременного владения пунктуацией, историческими фактами и логикой построения текста . Таким образом, минимизация общей функции потерь (loss) неизбежно ведет к улучшению когнитивных способностей модели .

📈 Законы масштабирования и интуиция моделей 9:13

Одним из ключевых принципов современной разработки ИИ являются законы масштабирования (Scaling Laws), популяризированные в работе Kaplan et al. (2020) . Согласно этим законам, увеличение объема вычислительных мощностей (compute), который равен произведению объема данных на количество параметров модели, предсказуемо и плавно снижает функцию потерь .

Джейсон Вей предлагает две «интуитивные» причины, почему большие модели работают лучше:

Запоминание редких фактов (Tail Knowledge): малые модели вынуждены быть избирательными и запоминать только самые частотные факты. Большие модели могут позволить себе хранить в параметрах огромное количество специфической информации .
Сложные эвристики: малые модели тратят ресурсы на базовую грамматику. Большие модели используют избыточные параметры для выполнения сложных логических операций в рамках прямого прохода (forward pass) .

🚀 Эмерджентные способности: когда прогресс случается внезапно 13:08

Важное наблюдение Вея заключается в том, что хотя общая функция потерь снижается плавно, точность выполнения конкретных задач может расти скачкообразно . Проанализировав 202 задачи из корпуса Big Bench, Вей выделил следующую статистику их прогресса по мере масштабирования:

33% — Эмерджентные способности: точность остается на нуле до определенного порога вычислительной сложности, после чего резко взлетает .
29% — Плавный рост: постепенное улучшение .
22% — «Плоские» графики: задача остается слишком сложной для всех протестированных моделей .
2% — Инвертированное масштабирование: точность падает с ростом модели (часто из-за ложных корреляций) .

Примером сложного поведения является U-образное масштабирование (U-shaped scaling). Вей разобрал задачу: «Повторяй за мной: не всё то золото, что блестит (all that glisters is not gold)» .

Крошечные модели просто повторяют фразу.
Средние модели знают пословицу и «исправляют» ввод на стандартный вариант, игнорируя инструкцию повтора.
Крупные модели достаточно умны, чтобы следовать инструкции, даже если она противоречит их внутренним знаниям о цитатах .

📉 «Горький урок» и доминирующая сила ИИ 31:18

Хён Вон Чун продолжил лекцию, сфокусировавшись на методологии прогнозирования будущего ИИ. Его главный тезис: нужно изучать не последние новости недели, а «саму природу изменений» . По мнению Чуна, в индустрии ИИ существует одна доминирующая сила — экспоненциальное удешевление вычислений .

Он опирается на эссе Ричарда Саттона «Горький урок» (The Bitter Lesson):

70 лет исследований ИИ показывают, что методы, пытающиеся имитировать человеческое мышление или использующие сложные ручные настройки (индуктивные смещения), в долгосрочной перспективе всегда проигрывают общим методам, которые просто масштабируются с ростом железа .
Сложные структуры (например, CNN с их инвариантностью к сдвигу) дают преимущество на малых данных, но становятся «бутылочным горлышком» при избытке вычислений .

🏗️ Эволюция Трансформеров: от Encoder-Decoder к Decoder-only 45:30

Хён Вон Чун подробно разобрал, почему индустрия отказалась от оригинальной архитектуры Трансформера (2017) в пользу упрощенных моделей «только декодер» (Decoder-only), таких как GPT-3 .

Оригинальный Transformer (Encoder-Decoder) имел сложную структуру:

Раздельные параметры для входной и выходной последовательностей .
Cross-attention механизм, где каждый слой декодера обращается к последнему слою энкодера .
Двунаправленное внимание (Bidirectional) в энкодере .

Чун утверждает, что эти архитектурные изыски были «костылями» в эпоху ограниченных данных и вычислений. С переходом к масштабированию выяснилось:

Общие параметры: знание языков (например, английского и немецкого при переводе) лучше хранить в едином пространстве параметров, а не разделять их между энкодером и декодером .
Универсальность задач: в современных чат-ботах (ChatGPT) ответ одной итерации становится вводом для следующей. Разделение на энкодер и декодер здесь только мешает .
Инженерная эффективность: однонаправленное (Casual) внимание позволяет эффективно кэшировать ключи и значения (KV-cache), что критически важно для быстрых многоходовых диалогов. Двунаправленное внимание заставляло бы пересчитывать весь контекст заново при каждом новом слове .

🔮 Будущие узкие места: за пределами архитектуры 1:12:37

На вопрос о том, что станет следующим препятствием для развития ИИ, Хён Вон Чун ответил, что это не архитектура . Протестировав более 60 модификаций Трансформера, исследователи OpenAI пришли к выводу, что большинство из них не дают значимого прироста при масштабировании .

Главные проблемы лежат в других областях:

Целевая функция (Learning Objective): метод максимального правдоподобия (MLE), используемый при обучении, заставляет модель выбирать один «правильный» вариант из данных. Это плохо подходит для творческих задач (например, написания стихотворения), где правильных ответов много .
RLHF как выход: обучение с подкреплением на основе отзывов людей (RLHF) позволяет модели выйти за рамки простого подражания тексту и обучаться на основе функции вознаграждения, что является более общим и масштабируемым подходом .
Физические ограничения: если закон Мура (количество транзисторов) замедляется, на первый план выходят специализированные архитектуры чипов и вопросы энергопотребления .

Чун оптимистично предположил, что со временем машины сами начнут проектировать чипы лучше людей, что позволит поддерживать экспоненциальный рост вычислителей .