# От «детских» данных до нейронауки: лекция Stanford CS25

Источник: https://www.youtube.com/watch?v=JKbtWimlzAE
Канал: Stanford Online
Опубликовано: 18.04.2025

---

## Обзор архитектуры трансформеров: от основ до обучения агентов
[[JUMP:0:04]]

Курс CS25 от Stanford Online посвящен глубокому изучению трансформеров — архитектуры, которая стала фундаментом современных систем искусственного интеллекта, от ChatGPT до генераторов видео вроде Sora. Ведущие курса, аспиранты Стэнфорда Стивен, Каран и Челси, представили вводную лекцию, охватывающую весь жизненный цикл модели: от предобучения на огромных массивах данных до методов посттренировки, повышения эффективности и перспектив создания «пожизненно обучающихся» агентов.

### 🧠 Фундамент трансформеров: эмбеддинги и внимание
[[JUMP:6:29]]

Работа трансформера начинается с преобразования слов в числа. Так как модели не могут обрабатывать слова напрямую, используются **эмбеддинги** — плотные векторы в многомерном пространстве, позволяющие математически выражать семантическое сходство понятий (например, «кошка» ближе к «собаке», чем к «автомобилю»).

*   **Контекстуальные эмбеддинги:** В отличие от статических методов (Word2Vec), они учитывают контекст предложения, что решает проблему многозначности слов.
*   **Механизм внимания (Self-Attention):** Система обучается трем матрицам — запросу (query), ключу (key) и значению (value). Аналогия с библиотекой: вы формулируете запрос, сравниваете его с ключами (краткими описаниями книг) и извлекаете информацию (значения) из релевантных источников.
*   **Позиционное кодирование:** Поскольку трансформеры обрабатывают данные параллельно, им нужно добавлять информацию о порядке слов в последовательности, например, с помощью синусоидальных функций.

### 📊 Предобучение: искусство работы с данными
[[JUMP:10:40]]

По мнению Стивена, качество и структура данных важнее их простого количества. В своих исследованиях он сравнил два подхода к предобучению:

1.  **Малый масштаб:** Изучение эффективности «детской» речи (Child-Directed Speech). Эксперименты показали, что естественные детские диалоги дают худшие результаты, чем гетерогенные смеси данных (вроде BabyLM), а использование «учебной программы» (curriculum learning) не показало значительного преимущества.
2.  **Большой масштаб:** Двухфазное предобучение (Two-Phase Pretraining), разработанное в сотрудничестве с NVIDIA. Первая фаза идет на разнообразных данных для общих знаний, вторая — на специализированных (математика, код). Оптимальный момент для переключения между фазами — около 40% общего объема обучения, далее начинаются «убывающая отдача» и риск переобучения.

### 🚀 Посттренировка и reasoning-способности
[[JUMP:25:01]]

После предобучения модель необходимо адаптировать к конкретным задачам с помощью методов посттренировки, которые описала Челси.

*   **Цепочки рассуждений (Chain-of-Thought):** Побуждение модели «думать по шагам» позволяет разбить сложную проблему на логические этапы.
*   **Деревья рассуждений (Tree-of-Thought):** Рассмотрение множества путей решения с последующим выбором лучшего через механизмы самооценки или голосования.
*   **RLHF и DPO:** Методы обучения с подкреплением на основе отзывов людей (RLHF) или более эффективная прямая оптимизация предпочтений (DPO) позволяют модели подстраиваться под человеческие критерии качества.
*   **GRPO (Group Relative Policy Optimization):** Используется в моделях DeepSeek; ранжирует целые группы ответов вместо пар, что повышает стабильность и эффективность обучения.

### 🤖 Агенты и самосовершенствование
[[JUMP:34:19]]

Агент — это система, которая воспринимает среду, ставит цели и итеративно действует для их достижения. Техники, позволяющие агентам улучшаться:

*   **Refinement:** Итеративная самокритика и доработка ответов.
*   **ReAct:** Сочетание логических рассуждений с внешними инструментами (например, поиск в интернете).
*   **LATS (Language Agent Tree Search):** Расширение ReAct, использующее поиск по дереву Монте-Карло для планирования траекторий.

### 🧬 Прикладные исследования и нейронаука
[[JUMP:39:11]]

Каран представил применение Vision Transformers (ViT) не только в компьютерном зрении, но и в анализе fMRI-данных мозга. Традиционные методы линейной корреляции уступают трансформерам в точности постановки диагнозов (например, при болезни Паркинсона), так как ViT способны улавливать более сложные связи между функциональными сетями мозга.

### 🔮 Проблемы и будущее ИИ
[[JUMP:48:03]]

Несмотря на успехи, текущие модели сталкиваются с барьерами:

*   **Отсутствие реального обучения в процессе эксплуатации:** Современные модели «замораживаются» после обучения. Стивен полагает, что прорывом к AGI станет «пожизненное обучение» (continual learning), где веса модели обновляются непрерывно.
*   **Черный ящик:** Сложность архитектур затрудняет понимание причин принятия решений, что требует развития области механистической интерпретируемости.
*   **Эффективность:** Необходимы миниатюрные модели, способные работать на локальных устройствах (смартфонах, часах) без потери качества.