# OpenAI в Стэнфорде: почему масштаб важнее архитектуры и как работает «магия» LLM

Источник: https://www.youtube.com/watch?v=3gb-ZkVRemQ
Канал: Stanford Online
Опубликовано: 06.05.2024

---

В рамках курса CS25 в Стэнфордском университете исследователи из OpenAI Джейсон Вей (Jason Wei) и Хён Вон Чун (Hyung Won Chung) представили глубокий анализ механизмов работы больших языковых моделей (LLM). В центре внимания — причины эффективности предсказания следующего слова, феномен эмерджентных способностей и эволюция архитектуры трансформеров от сложных структур к предельной простоте.

## 🧠 Магия предсказания следующего слова: почему это работает
[[JUMP:01:11]]

Джейсон Вей начал выступление с фундаментального вопроса: почему задача предсказания следующего слова (next-word prediction) порождает столь продвинутый интеллект? [01:11]. По его мнению, этот процесс следует рассматривать как массовое многозадачное обучение (massively multi-task learning) [04:38].

Когда модель обучается на гигантском массиве данных, она вынуждена осваивать миллионы подзадач для минимизации потерь:

*   **Грамматика и лексика:** чтобы выбрать между словами «код» и «банан» в контексте программирования [05:16].
*   **Мировые знания:** знание столиц (например, Баку — столица Азербайджана) напрямую снижает функцию потерь [05:42].
*   **Традиционные задачи NLP:** анализ тональности отзывов о кино или перевод слов (например, «pretty» на испанский — «bonita») [05:55].
*   **Пространственное мышление и математика:** отслеживание перемещения персонажей между комнатами или решение арифметических примеров [06:22].

Вей приводит пример предложения из Википедии о Джо Байдене, чтобы показать сложность задачи: предсказание запятой, фамилии первой жены («Хантер») или статуса («студент») требует от модели одновременного владения пунктуацией, историческими фактами и логикой построения текста [07:31]. Таким образом, минимизация общей функции потерь (loss) неизбежно ведет к улучшению когнитивных способностей модели [08:57].

## 📈 Законы масштабирования и интуиция моделей
[[JUMP:09:13]]

Одним из ключевых принципов современной разработки ИИ являются законы масштабирования (Scaling Laws), популяризированные в работе Kaplan et al. (2020) [09:40]. Согласно этим законам, увеличение объема вычислительных мощностей (compute), который равен произведению объема данных на количество параметров модели, предсказуемо и плавно снижает функцию потерь [09:13].

Джейсон Вей предлагает две «интуитивные» причины, почему большие модели работают лучше:

1.  **Запоминание редких фактов (Tail Knowledge):** малые модели вынуждены быть избирательными и запоминать только самые частотные факты. Большие модели могут позволить себе хранить в параметрах огромное количество специфической информации [12:05].
2.  **Сложные эвристики:** малые модели тратят ресурсы на базовую грамматику. Большие модели используют избыточные параметры для выполнения сложных логических операций в рамках прямого прохода (forward pass) [12:31].

## 🚀 Эмерджентные способности: когда прогресс случается внезапно
[[JUMP:13:08]]

Важное наблюдение Вея заключается в том, что хотя общая функция потерь снижается плавно, точность выполнения конкретных задач может расти скачкообразно [13:08]. Проанализировав 202 задачи из корпуса Big Bench, Вей выделил следующую статистику их прогресса по мере масштабирования:

*   **33% — Эмерджентные способности:** точность остается на нуле до определенного порога вычислительной сложности, после чего резко взлетает [18:22].
*   **29% — Плавный рост:** постепенное улучшение [17:14].
*   **22% — «Плоские» графики:** задача остается слишком сложной для всех протестированных моделей [17:41].
*   **2% — Инвертированное масштабирование:** точность падает с ростом модели (часто из-за ложных корреляций) [17:54].

Примером сложного поведения является U-образное масштабирование (U-shaped scaling). Вей разобрал задачу: «Повторяй за мной: не всё то золото, что блестит (all that glisters is not gold)» [19:58]. 

*   **Крошечные модели** просто повторяют фразу. 
*   **Средние модели** знают пословицу и «исправляют» ввод на стандартный вариант, игнорируя инструкцию повтора. 
*   **Крупные модели** достаточно умны, чтобы следовать инструкции, даже если она противоречит их внутренним знаниям о цитатах [23:09].

## 📉 «Горький урок» и доминирующая сила ИИ
[[JUMP:31:18]]

Хён Вон Чун продолжил лекцию, сфокусировавшись на методологии прогнозирования будущего ИИ. Его главный тезис: нужно изучать не последние новости недели, а «саму природу изменений» [33:03]. По мнению Чуна, в индустрии ИИ существует одна доминирующая сила — экспоненциальное удешевление вычислений [37:52].

Он опирается на эссе Ричарда Саттона «Горький урок» (The Bitter Lesson):

*   70 лет исследований ИИ показывают, что методы, пытающиеся имитировать человеческое мышление или использующие сложные ручные настройки (индуктивные смещения), в долгосрочной перспективе всегда проигрывают общим методам, которые просто масштабируются с ростом железа [40:46].
*   Сложные структуры (например, CNN с их инвариантностью к сдвигу) дают преимущество на малых данных, но становятся «бутылочным горлышком» при избытке вычислений [42:16].

## 🏗️ Эволюция Трансформеров: от Encoder-Decoder к Decoder-only
[[JUMP:45:30]]

Хён Вон Чун подробно разобрал, почему индустрия отказалась от оригинальной архитектуры Трансформера (2017) в пользу упрощенных моделей «только декодер» (Decoder-only), таких как GPT-3 [45:30].

Оригинальный Transformer (Encoder-Decoder) имел сложную структуру:

1.  **Раздельные параметры** для входной и выходной последовательностей [57:45].
2.  **Cross-attention механизм**, где каждый слой декодера обращается к последнему слою энкодера [50:19].
3.  **Двунаправленное внимание (Bidirectional)** в энкодере [48:34].

Чун утверждает, что эти архитектурные изыски были «костылями» в эпоху ограниченных данных и вычислений. С переходом к масштабированию выяснилось:

*   **Общие параметры:** знание языков (например, английского и немецкого при переводе) лучше хранить в едином пространстве параметров, а не разделять их между энкодером и декодером [59:07].
*   **Универсальность задач:** в современных чат-ботах (ChatGPT) ответ одной итерации становится вводом для следующей. Разделение на энкодер и декодер здесь только мешает [1:01:49].
*   **Инженерная эффективность:** однонаправленное (Casual) внимание позволяет эффективно кэшировать ключи и значения (KV-cache), что критически важно для быстрых многоходовых диалогов. Двунаправленное внимание заставляло бы пересчитывать весь контекст заново при каждом новом слове [1:04:23].

## 🔮 Будущие узкие места: за пределами архитектуры
[[JUMP:1:12:37]]

На вопрос о том, что станет следующим препятствием для развития ИИ, Хён Вон Чун ответил, что это не архитектура [1:12:37]. Протестировав более 60 модификаций Трансформера, исследователи OpenAI пришли к выводу, что большинство из них не дают значимого прироста при масштабировании [1:12:50].

Главные проблемы лежат в других областях:

*   **Целевая функция (Learning Objective):** метод максимального правдоподобия (MLE), используемый при обучении, заставляет модель выбирать один «правильный» вариант из данных. Это плохо подходит для творческих задач (например, написания стихотворения), где правильных ответов много [1:13:28].
*   **RLHF как выход:** обучение с подкреплением на основе отзывов людей (RLHF) позволяет модели выйти за рамки простого подражания тексту и обучаться на основе функции вознаграждения, что является более общим и масштабируемым подходом [1:14:09].
*   **Физические ограничения:** если закон Мура (количество транзисторов) замедляется, на первый план выходят специализированные архитектуры чипов и вопросы энергопотребления [1:15:27].

Чун оптимистично предположил, что со временем машины сами начнут проектировать чипы лучше людей, что позволит поддерживать экспоненциальный рост вычислителей [1:16:44].