В рамках курса CS25 в Стэнфордском университете исследователи из OpenAI Джейсон Вей (Jason Wei) и Хён Вон Чун (Hyung Won Chung) представили глубокий анализ механизмов работы больших языковых моделей (LLM). В центре внимания — причины эффективности предсказания следующего слова, феномен эмерджентных способностей и эволюция архитектуры трансформеров от сложных структур к предельной простоте.
🧠 Магия предсказания следующего слова: почему это работает 1:11
Джейсон Вей начал выступление с фундаментального вопроса: почему задача предсказания следующего слова (next-word prediction) порождает столь продвинутый интеллект? . По его мнению, этот процесс следует рассматривать как массовое многозадачное обучение (massively multi-task learning) .
Когда модель обучается на гигантском массиве данных, она вынуждена осваивать миллионы подзадач для минимизации потерь:
- Грамматика и лексика: чтобы выбрать между словами «код» и «банан» в контексте программирования .
- Мировые знания: знание столиц (например, Баку — столица Азербайджана) напрямую снижает функцию потерь .
- Традиционные задачи NLP: анализ тональности отзывов о кино или перевод слов (например, «pretty» на испанский — «bonita») .
- Пространственное мышление и математика: отслеживание перемещения персонажей между комнатами или решение арифметических примеров .
Вей приводит пример предложения из Википедии о Джо Байдене, чтобы показать сложность задачи: предсказание запятой, фамилии первой жены («Хантер») или статуса («студент») требует от модели одновременного владения пунктуацией, историческими фактами и логикой построения текста . Таким образом, минимизация общей функции потерь (loss) неизбежно ведет к улучшению когнитивных способностей модели .
📈 Законы масштабирования и интуиция моделей 9:13
Одним из ключевых принципов современной разработки ИИ являются законы масштабирования (Scaling Laws), популяризированные в работе Kaplan et al. (2020) . Согласно этим законам, увеличение объема вычислительных мощностей (compute), который равен произведению объема данных на количество параметров модели, предсказуемо и плавно снижает функцию потерь .
Джейсон Вей предлагает две «интуитивные» причины, почему большие модели работают лучше:
- Запоминание редких фактов (Tail Knowledge): малые модели вынуждены быть избирательными и запоминать только самые частотные факты. Большие модели могут позволить себе хранить в параметрах огромное количество специфической информации .
- Сложные эвристики: малые модели тратят ресурсы на базовую грамматику. Большие модели используют избыточные параметры для выполнения сложных логических операций в рамках прямого прохода (forward pass) .
🚀 Эмерджентные способности: когда прогресс случается внезапно 13:08
Важное наблюдение Вея заключается в том, что хотя общая функция потерь снижается плавно, точность выполнения конкретных задач может расти скачкообразно . Проанализировав 202 задачи из корпуса Big Bench, Вей выделил следующую статистику их прогресса по мере масштабирования:
- 33% — Эмерджентные способности: точность остается на нуле до определенного порога вычислительной сложности, после чего резко взлетает .
- 29% — Плавный рост: постепенное улучшение .
- 22% — «Плоские» графики: задача остается слишком сложной для всех протестированных моделей .
- 2% — Инвертированное масштабирование: точность падает с ростом модели (часто из-за ложных корреляций) .
Примером сложного поведения является U-образное масштабирование (U-shaped scaling). Вей разобрал задачу: «Повторяй за мной: не всё то золото, что блестит (all that glisters is not gold)» .
- Крошечные модели просто повторяют фразу.
- Средние модели знают пословицу и «исправляют» ввод на стандартный вариант, игнорируя инструкцию повтора.
- Крупные модели достаточно умны, чтобы следовать инструкции, даже если она противоречит их внутренним знаниям о цитатах .
📉 «Горький урок» и доминирующая сила ИИ 31:18
Хён Вон Чун продолжил лекцию, сфокусировавшись на методологии прогнозирования будущего ИИ. Его главный тезис: нужно изучать не последние новости недели, а «саму природу изменений» . По мнению Чуна, в индустрии ИИ существует одна доминирующая сила — экспоненциальное удешевление вычислений .
Он опирается на эссе Ричарда Саттона «Горький урок» (The Bitter Lesson):
- 70 лет исследований ИИ показывают, что методы, пытающиеся имитировать человеческое мышление или использующие сложные ручные настройки (индуктивные смещения), в долгосрочной перспективе всегда проигрывают общим методам, которые просто масштабируются с ростом железа .
- Сложные структуры (например, CNN с их инвариантностью к сдвигу) дают преимущество на малых данных, но становятся «бутылочным горлышком» при избытке вычислений .
🏗️ Эволюция Трансформеров: от Encoder-Decoder к Decoder-only 45:30
Хён Вон Чун подробно разобрал, почему индустрия отказалась от оригинальной архитектуры Трансформера (2017) в пользу упрощенных моделей «только декодер» (Decoder-only), таких как GPT-3 .
Оригинальный Transformer (Encoder-Decoder) имел сложную структуру:
- Раздельные параметры для входной и выходной последовательностей .
- Cross-attention механизм, где каждый слой декодера обращается к последнему слою энкодера .
- Двунаправленное внимание (Bidirectional) в энкодере .
Чун утверждает, что эти архитектурные изыски были «костылями» в эпоху ограниченных данных и вычислений. С переходом к масштабированию выяснилось:
- Общие параметры: знание языков (например, английского и немецкого при переводе) лучше хранить в едином пространстве параметров, а не разделять их между энкодером и декодером .
- Универсальность задач: в современных чат-ботах (ChatGPT) ответ одной итерации становится вводом для следующей. Разделение на энкодер и декодер здесь только мешает .
- Инженерная эффективность: однонаправленное (Casual) внимание позволяет эффективно кэшировать ключи и значения (KV-cache), что критически важно для быстрых многоходовых диалогов. Двунаправленное внимание заставляло бы пересчитывать весь контекст заново при каждом новом слове .
🔮 Будущие узкие места: за пределами архитектуры 1:12:37
На вопрос о том, что станет следующим препятствием для развития ИИ, Хён Вон Чун ответил, что это не архитектура . Протестировав более 60 модификаций Трансформера, исследователи OpenAI пришли к выводу, что большинство из них не дают значимого прироста при масштабировании .
Главные проблемы лежат в других областях:
- Целевая функция (Learning Objective): метод максимального правдоподобия (MLE), используемый при обучении, заставляет модель выбирать один «правильный» вариант из данных. Это плохо подходит для творческих задач (например, написания стихотворения), где правильных ответов много .
- RLHF как выход: обучение с подкреплением на основе отзывов людей (RLHF) позволяет модели выйти за рамки простого подражания тексту и обучаться на основе функции вознаграждения, что является более общим и масштабируемым подходом .
- Физические ограничения: если закон Мура (количество транзисторов) замедляется, на первый план выходят специализированные архитектуры чипов и вопросы энергопотребления .
Чун оптимистично предположил, что со временем машины сами начнут проектировать чипы лучше людей, что позволит поддерживать экспоненциальный рост вычислителей .