# Эволюция нейросетей: от «Attention Is All You Need» до агентов L5

Источник: https://www.youtube.com/watch?v=fKMB5UlVY1E
Канал: Stanford Online
Опубликовано: 23.04.2024

---

В Стэнфордском университете стартовала четвертая итерация курса CS25, посвященного архитектуре Transformers и их влиянию на современный искусственный интеллект. В вводной лекции исследователи и преподаватели курса разбирают путь от первых механизмов внимания до создания автономных агентов и «нейронных компьютеров», которые начинают выходить за пределы лабораторий в реальный мир.

## 🕰️ От ELIZA до GPT-4: Эволюция понимания языка
[[JUMP:04:05]]

История обработки естественного языка (NLP) прошла путь от жестко заданных правил до гибких вероятностных моделей. Преподаватели выделяют несколько ключевых эпох:

*   **Доисторическая эра (до 2014 года):** Использование правил и простейших рекуррентных сетей (RNN, LSTM) [04:17]. Эти модели страдали от невозможности параллелизации и трудностей с запоминанием длинных последовательностей [15:51].
*   **Зарождение внимания (2014–2016):** Исследователи начали адаптировать механизмы внимания, вдохновленные человеческим мозгом, сначала для обработки изображений, чтобы фокусироваться на наиболее значимых деталях [04:30].
*   **Революция Transformers (2017):** Выход статьи «Attention Is All You Need» сделал архитектуру Transformers мейнстримом, предложив полностью отказаться от рекурсии в пользу механизма Self-Attention [04:56].
*   **Эра генеративного ИИ (с 2022 года по настоящее время):** Появление моделей с миллиардами и триллионами параметров, таких как GPT-3, GPT-4 и Gemini, которые находят применение в медицине (AlphaFold), генерации видео (Sora) и программировании [05:10].

По мнению Дива, одного из лекторов, ИИ сейчас находится в точке «побега из лаборатории», когда технологии начинают напрямую влиять на повседневную жизнь и взаимодействие с технологиями [05:48].

## 🧠 Анатомия внимания: Как работают Transformers
[[JUMP:09:56]]

В основе архитектуры лежит механизм внимания, который Стивен сравнивает с библиотечной системой [10:47]. Для понимания процесса используются три ключевых компонента:

1.  **Query (Запрос):** То, что модель ищет в данный момент (например, «рецепт пиццы») [10:55].
2.  **Key (Ключ):** Идентификатор или краткое содержание информации, доступной в системе (названия разделов в библиотеке) [11:00].
3.  **Value (Значение):** Сама информация, которую необходимо извлечь [11:14].

Модель не просто ищет точное совпадение, а выполняет «мягкий поиск» (soft match), определяя распределение релевантности между всеми доступными данными [11:26]. 

### Многоголовое внимание и блоки
Transformers используют **Multi-head attention** — механизм, при котором внимание вычисляется несколько раз параллельно [12:33]. Это позволяет модели одновременно отслеживать разные типы связей в тексте: грамматические, смысловые и контекстные. 

Стивен поясняет разницу между типами моделей:

*   **Encoder-Decoder (например, T5):** Используется для перевода, где есть входной текст на одном языке и выходной на другом [13:26].
*   **Decoder-only (например, GPT):** Авторегрессионные модели, которые предсказывают следующий токен, опираясь только на уже сгенерированный текст [13:39].

## 📈 Масштабирование и «эмерджентные» способности
[[JUMP:18:02]]

Одной из самых обсуждаемых тем в ИИ является вопрос масштабирования (Scaling Laws). Эмили отмечает, что при увеличении объема вычислений и данных у моделей возникают «эмерджентные способности» — навыки, которые отсутствуют у малых моделей, но внезапно проявляются у крупных [18:29].

К таким способностям относят сложную арифметику, распознавание лжи или транслитерацию [19:20]. Этот процесс напоминает фазовый переход: точность модели долгое время остается на нуле, а затем резко взлетает при достижении определенного порога параметров [18:54].

Однако в научном сообществе ведется дискуссия. Эмили упоминает исследование ученых из Stanford University, которые утверждают, что эмерджентные способности могут быть иллюзией, вызванной выбором нелинейных метрик оценки, а не фундаментальными изменениями в модели [20:16]. (Другие исследователи, включая Джейсона Вея из OpenAI, с этой точкой зрения не согласны и продолжают изучать феномен эмерджентности).

## 🤖 От моделей к агентам: AI Software 3.0
[[JUMP:49:46]]

Див предлагает концепцию «Software 3.0», где человек общается с компьютером на естественном языке, а ИИ-агент управляет интерфейсами [51:08]. Главное отличие агента от простой языковой модели заключается в способности совершать действия, планировать и обладать долгосрочной памятью.

Уровни автономии агентов (по аналогии с беспилотными авто) [56:20]:

*   **L0–L2:** Человек полностью контролирует процесс, ИИ лишь помогает.
*   **L3–L4:** ИИ выполняет большую часть работы, но человек должен быть готов вмешаться.
*   **L5:** Полная автономия (например, агент сам бронирует билеты, совершает платежи и решает проблемы без участия пользователя) [57:27].

В качестве примера Див показал демо своего стартапа, где ИИ-агент успешно сдал онлайн-экзамен на водительские права в Калифорнии, самостоятельно управляя браузером и отвечая на вопросы [53:06]. При этом система DMV не смогла распознать бота, несмотря на установленное защитное ПО [53:32].

### LLM как операционная система
Андрей Карпатый предложил аналогию «LLM OS», где большая языковая модель выступает в роли центрального процессора (CPU) [1:13:45]:

*   **Контекстное окно** — это оперативная память (RAM) [1:14:04].
*   **Векторные базы данных** — это жесткий диск (File System) [1:14:11].
*   **Интерпретатор Python или калькулятор** — это арифметико-логическое устройство (ALU) [1:14:26].

## ⚠️ Проблемы и барьеры на пути к AGI
[[JUMP:26:43]]

Несмотря на успехи, архитектура Transformers имеет ряд критических ограничений, которые обсуждали все участники дискуссии:

1.  **Эффективность обучения:** Ллмы обучаются на колоссальных объемах данных (в 10 000 – 1 000 000 раз больше, чем нужно ребенку для освоения языка) [32:41].
2.  **Галлюцинации:** Модели часто уверены в фактически неверной информации [43:30].
3.  **«Забывчивость»:** Знания моделей зафиксированы на момент окончания обучения. Решить это пытаются через RAG (Retrieval-Augmented Generation), но это лишь внешняя «надстройка», а не изменение «мозга» модели [35:29].
4.  **Безопасность агентов:** Предоставление ИИ доступа к банковским счетам или личным данным требует создания новых протоколов безопасности и «песочниц» [1:12:23].

По словам Стивена, одной из важнейших задач является **Model Editing** — возможность изменять конкретные знания в нейросети (например, столицу страны) без полной перетренировки модели, воздействуя на специфические узлы [41:05].

---