От «детских» данных до нейронауки: лекция Stanford CS25

Обзор архитектуры трансформеров: от основ до обучения агентов 0:04

Курс CS25 от Stanford Online посвящен глубокому изучению трансформеров — архитектуры, которая стала фундаментом современных систем искусственного интеллекта, от ChatGPT до генераторов видео вроде Sora. Ведущие курса, аспиранты Стэнфорда Стивен, Каран и Челси, представили вводную лекцию, охватывающую весь жизненный цикл модели: от предобучения на огромных массивах данных до методов посттренировки, повышения эффективности и перспектив создания «пожизненно обучающихся» агентов.

🧠 Фундамент трансформеров: эмбеддинги и внимание 6:29

Работа трансформера начинается с преобразования слов в числа. Так как модели не могут обрабатывать слова напрямую, используются эмбеддинги — плотные векторы в многомерном пространстве, позволяющие математически выражать семантическое сходство понятий (например, «кошка» ближе к «собаке», чем к «автомобилю»).

Контекстуальные эмбеддинги: В отличие от статических методов (Word2Vec), они учитывают контекст предложения, что решает проблему многозначности слов.
Механизм внимания (Self-Attention): Система обучается трем матрицам — запросу (query), ключу (key) и значению (value). Аналогия с библиотекой: вы формулируете запрос, сравниваете его с ключами (краткими описаниями книг) и извлекаете информацию (значения) из релевантных источников.
Позиционное кодирование: Поскольку трансформеры обрабатывают данные параллельно, им нужно добавлять информацию о порядке слов в последовательности, например, с помощью синусоидальных функций.

📊 Предобучение: искусство работы с данными 10:40

По мнению Стивена, качество и структура данных важнее их простого количества. В своих исследованиях он сравнил два подхода к предобучению:

Малый масштаб: Изучение эффективности «детской» речи (Child-Directed Speech). Эксперименты показали, что естественные детские диалоги дают худшие результаты, чем гетерогенные смеси данных (вроде BabyLM), а использование «учебной программы» (curriculum learning) не показало значительного преимущества.
Большой масштаб: Двухфазное предобучение (Two-Phase Pretraining), разработанное в сотрудничестве с NVIDIA. Первая фаза идет на разнообразных данных для общих знаний, вторая — на специализированных (математика, код). Оптимальный момент для переключения между фазами — около 40% общего объема обучения, далее начинаются «убывающая отдача» и риск переобучения.

🚀 Посттренировка и reasoning-способности 25:01

После предобучения модель необходимо адаптировать к конкретным задачам с помощью методов посттренировки, которые описала Челси.

Цепочки рассуждений (Chain-of-Thought): Побуждение модели «думать по шагам» позволяет разбить сложную проблему на логические этапы.
Деревья рассуждений (Tree-of-Thought): Рассмотрение множества путей решения с последующим выбором лучшего через механизмы самооценки или голосования.
RLHF и DPO: Методы обучения с подкреплением на основе отзывов людей (RLHF) или более эффективная прямая оптимизация предпочтений (DPO) позволяют модели подстраиваться под человеческие критерии качества.
GRPO (Group Relative Policy Optimization): Используется в моделях DeepSeek; ранжирует целые группы ответов вместо пар, что повышает стабильность и эффективность обучения.

🤖 Агенты и самосовершенствование 34:19

Агент — это система, которая воспринимает среду, ставит цели и итеративно действует для их достижения. Техники, позволяющие агентам улучшаться:

Refinement: Итеративная самокритика и доработка ответов.
ReAct: Сочетание логических рассуждений с внешними инструментами (например, поиск в интернете).
LATS (Language Agent Tree Search): Расширение ReAct, использующее поиск по дереву Монте-Карло для планирования траекторий.

🧬 Прикладные исследования и нейронаука 39:11

Каран представил применение Vision Transformers (ViT) не только в компьютерном зрении, но и в анализе fMRI-данных мозга. Традиционные методы линейной корреляции уступают трансформерам в точности постановки диагнозов (например, при болезни Паркинсона), так как ViT способны улавливать более сложные связи между функциональными сетями мозга.

🔮 Проблемы и будущее ИИ 48:03

Несмотря на успехи, текущие модели сталкиваются с барьерами:

Отсутствие реального обучения в процессе эксплуатации: Современные модели «замораживаются» после обучения. Стивен полагает, что прорывом к AGI станет «пожизненное обучение» (continual learning), где веса модели обновляются непрерывно.
Черный ящик: Сложность архитектур затрудняет понимание причин принятия решений, что требует развития области механистической интерпретируемости.
Эффективность: Необходимы миниатюрные модели, способные работать на локальных устройствах (смартфонах, часах) без потери качества.