Эволюция нейросетей: от «Attention Is All You Need» до агентов L5

В Стэнфордском университете стартовала четвертая итерация курса CS25, посвященного архитектуре Transformers и их влиянию на современный искусственный интеллект. В вводной лекции исследователи и преподаватели курса разбирают путь от первых механизмов внимания до создания автономных агентов и «нейронных компьютеров», которые начинают выходить за пределы лабораторий в реальный мир.

🕰️ От ELIZA до GPT-4: Эволюция понимания языка 4:05

История обработки естественного языка (NLP) прошла путь от жестко заданных правил до гибких вероятностных моделей. Преподаватели выделяют несколько ключевых эпох:

Доисторическая эра (до 2014 года): Использование правил и простейших рекуррентных сетей (RNN, LSTM) . Эти модели страдали от невозможности параллелизации и трудностей с запоминанием длинных последовательностей .
Зарождение внимания (2014–2016): Исследователи начали адаптировать механизмы внимания, вдохновленные человеческим мозгом, сначала для обработки изображений, чтобы фокусироваться на наиболее значимых деталях .
Революция Transformers (2017): Выход статьи «Attention Is All You Need» сделал архитектуру Transformers мейнстримом, предложив полностью отказаться от рекурсии в пользу механизма Self-Attention .
Эра генеративного ИИ (с 2022 года по настоящее время): Появление моделей с миллиардами и триллионами параметров, таких как GPT-3, GPT-4 и Gemini, которые находят применение в медицине (AlphaFold), генерации видео (Sora) и программировании .

По мнению Дива, одного из лекторов, ИИ сейчас находится в точке «побега из лаборатории», когда технологии начинают напрямую влиять на повседневную жизнь и взаимодействие с технологиями .

🧠 Анатомия внимания: Как работают Transformers 9:56

В основе архитектуры лежит механизм внимания, который Стивен сравнивает с библиотечной системой . Для понимания процесса используются три ключевых компонента:

Query (Запрос): То, что модель ищет в данный момент (например, «рецепт пиццы») .
Key (Ключ): Идентификатор или краткое содержание информации, доступной в системе (названия разделов в библиотеке) .
Value (Значение): Сама информация, которую необходимо извлечь .

Модель не просто ищет точное совпадение, а выполняет «мягкий поиск» (soft match), определяя распределение релевантности между всеми доступными данными .

Многоголовое внимание и блоки

Transformers используют Multi-head attention — механизм, при котором внимание вычисляется несколько раз параллельно . Это позволяет модели одновременно отслеживать разные типы связей в тексте: грамматические, смысловые и контекстные.

Стивен поясняет разницу между типами моделей:

Encoder-Decoder (например, T5): Используется для перевода, где есть входной текст на одном языке и выходной на другом .
Decoder-only (например, GPT): Авторегрессионные модели, которые предсказывают следующий токен, опираясь только на уже сгенерированный текст .

📈 Масштабирование и «эмерджентные» способности 18:02

Одной из самых обсуждаемых тем в ИИ является вопрос масштабирования (Scaling Laws). Эмили отмечает, что при увеличении объема вычислений и данных у моделей возникают «эмерджентные способности» — навыки, которые отсутствуют у малых моделей, но внезапно проявляются у крупных .

К таким способностям относят сложную арифметику, распознавание лжи или транслитерацию . Этот процесс напоминает фазовый переход: точность модели долгое время остается на нуле, а затем резко взлетает при достижении определенного порога параметров .

Однако в научном сообществе ведется дискуссия. Эмили упоминает исследование ученых из Stanford University, которые утверждают, что эмерджентные способности могут быть иллюзией, вызванной выбором нелинейных метрик оценки, а не фундаментальными изменениями в модели . (Другие исследователи, включая Джейсона Вея из OpenAI, с этой точкой зрения не согласны и продолжают изучать феномен эмерджентности).

🤖 От моделей к агентам: AI Software 3.0 49:46

Див предлагает концепцию «Software 3.0», где человек общается с компьютером на естественном языке, а ИИ-агент управляет интерфейсами . Главное отличие агента от простой языковой модели заключается в способности совершать действия, планировать и обладать долгосрочной памятью.

Уровни автономии агентов (по аналогии с беспилотными авто) :

L0–L2: Человек полностью контролирует процесс, ИИ лишь помогает.
L3–L4: ИИ выполняет большую часть работы, но человек должен быть готов вмешаться.
L5: Полная автономия (например, агент сам бронирует билеты, совершает платежи и решает проблемы без участия пользователя) .

В качестве примера Див показал демо своего стартапа, где ИИ-агент успешно сдал онлайн-экзамен на водительские права в Калифорнии, самостоятельно управляя браузером и отвечая на вопросы . При этом система DMV не смогла распознать бота, несмотря на установленное защитное ПО .

LLM как операционная система

Андрей Карпатый предложил аналогию «LLM OS», где большая языковая модель выступает в роли центрального процессора (CPU) :

Контекстное окно — это оперативная память (RAM) .
Векторные базы данных — это жесткий диск (File System) .
Интерпретатор Python или калькулятор — это арифметико-логическое устройство (ALU) .

⚠️ Проблемы и барьеры на пути к AGI 26:43

Несмотря на успехи, архитектура Transformers имеет ряд критических ограничений, которые обсуждали все участники дискуссии:

Эффективность обучения: Ллмы обучаются на колоссальных объемах данных (в 10 000 – 1 000 000 раз больше, чем нужно ребенку для освоения языка) .
Галлюцинации: Модели часто уверены в фактически неверной информации .
«Забывчивость»: Знания моделей зафиксированы на момент окончания обучения. Решить это пытаются через RAG (Retrieval-Augmented Generation), но это лишь внешняя «надстройка», а не изменение «мозга» модели .
Безопасность агентов: Предоставление ИИ доступа к банковским счетам или личным данным требует создания новых протоколов безопасности и «песочниц» .

По словам Стивена, одной из важнейших задач является Model Editing — возможность изменять конкретные знания в нейросети (например, столицу страны) без полной перетренировки модели, воздействуя на специфические узлы .