Обзор архитектуры трансформеров: от основ до обучения агентов 0:04
Курс CS25 от Stanford Online посвящен глубокому изучению трансформеров — архитектуры, которая стала фундаментом современных систем искусственного интеллекта, от ChatGPT до генераторов видео вроде Sora. Ведущие курса, аспиранты Стэнфорда Стивен, Каран и Челси, представили вводную лекцию, охватывающую весь жизненный цикл модели: от предобучения на огромных массивах данных до методов посттренировки, повышения эффективности и перспектив создания «пожизненно обучающихся» агентов.
🧠 Фундамент трансформеров: эмбеддинги и внимание 6:29
Работа трансформера начинается с преобразования слов в числа. Так как модели не могут обрабатывать слова напрямую, используются эмбеддинги — плотные векторы в многомерном пространстве, позволяющие математически выражать семантическое сходство понятий (например, «кошка» ближе к «собаке», чем к «автомобилю»).
- Контекстуальные эмбеддинги: В отличие от статических методов (Word2Vec), они учитывают контекст предложения, что решает проблему многозначности слов.
- Механизм внимания (Self-Attention): Система обучается трем матрицам — запросу (query), ключу (key) и значению (value). Аналогия с библиотекой: вы формулируете запрос, сравниваете его с ключами (краткими описаниями книг) и извлекаете информацию (значения) из релевантных источников.
- Позиционное кодирование: Поскольку трансформеры обрабатывают данные параллельно, им нужно добавлять информацию о порядке слов в последовательности, например, с помощью синусоидальных функций.
📊 Предобучение: искусство работы с данными 10:40
По мнению Стивена, качество и структура данных важнее их простого количества. В своих исследованиях он сравнил два подхода к предобучению:
- Малый масштаб: Изучение эффективности «детской» речи (Child-Directed Speech). Эксперименты показали, что естественные детские диалоги дают худшие результаты, чем гетерогенные смеси данных (вроде BabyLM), а использование «учебной программы» (curriculum learning) не показало значительного преимущества.
- Большой масштаб: Двухфазное предобучение (Two-Phase Pretraining), разработанное в сотрудничестве с NVIDIA. Первая фаза идет на разнообразных данных для общих знаний, вторая — на специализированных (математика, код). Оптимальный момент для переключения между фазами — около 40% общего объема обучения, далее начинаются «убывающая отдача» и риск переобучения.
🚀 Посттренировка и reasoning-способности 25:01
После предобучения модель необходимо адаптировать к конкретным задачам с помощью методов посттренировки, которые описала Челси.
- Цепочки рассуждений (Chain-of-Thought): Побуждение модели «думать по шагам» позволяет разбить сложную проблему на логические этапы.
- Деревья рассуждений (Tree-of-Thought): Рассмотрение множества путей решения с последующим выбором лучшего через механизмы самооценки или голосования.
- RLHF и DPO: Методы обучения с подкреплением на основе отзывов людей (RLHF) или более эффективная прямая оптимизация предпочтений (DPO) позволяют модели подстраиваться под человеческие критерии качества.
- GRPO (Group Relative Policy Optimization): Используется в моделях DeepSeek; ранжирует целые группы ответов вместо пар, что повышает стабильность и эффективность обучения.
🤖 Агенты и самосовершенствование 34:19
Агент — это система, которая воспринимает среду, ставит цели и итеративно действует для их достижения. Техники, позволяющие агентам улучшаться:
- Refinement: Итеративная самокритика и доработка ответов.
- ReAct: Сочетание логических рассуждений с внешними инструментами (например, поиск в интернете).
- LATS (Language Agent Tree Search): Расширение ReAct, использующее поиск по дереву Монте-Карло для планирования траекторий.
🧬 Прикладные исследования и нейронаука 39:11
Каран представил применение Vision Transformers (ViT) не только в компьютерном зрении, но и в анализе fMRI-данных мозга. Традиционные методы линейной корреляции уступают трансформерам в точности постановки диагнозов (например, при болезни Паркинсона), так как ViT способны улавливать более сложные связи между функциональными сетями мозга.
🔮 Проблемы и будущее ИИ 48:03
Несмотря на успехи, текущие модели сталкиваются с барьерами:
- Отсутствие реального обучения в процессе эксплуатации: Современные модели «замораживаются» после обучения. Стивен полагает, что прорывом к AGI станет «пожизненное обучение» (continual learning), где веса модели обновляются непрерывно.
- Черный ящик: Сложность архитектур затрудняет понимание причин принятия решений, что требует развития области механистической интерпретируемости.
- Эффективность: Необходимы миниатюрные модели, способные работать на локальных устройствах (смартфонах, часах) без потери качества.