В Стэнфордском университете стартовала четвертая итерация курса CS25, посвященного архитектуре Transformers и их влиянию на современный искусственный интеллект. В вводной лекции исследователи и преподаватели курса разбирают путь от первых механизмов внимания до создания автономных агентов и «нейронных компьютеров», которые начинают выходить за пределы лабораторий в реальный мир.
🕰️ От ELIZA до GPT-4: Эволюция понимания языка 4:05
История обработки естественного языка (NLP) прошла путь от жестко заданных правил до гибких вероятностных моделей. Преподаватели выделяют несколько ключевых эпох:
- Доисторическая эра (до 2014 года): Использование правил и простейших рекуррентных сетей (RNN, LSTM) . Эти модели страдали от невозможности параллелизации и трудностей с запоминанием длинных последовательностей .
- Зарождение внимания (2014–2016): Исследователи начали адаптировать механизмы внимания, вдохновленные человеческим мозгом, сначала для обработки изображений, чтобы фокусироваться на наиболее значимых деталях .
- Революция Transformers (2017): Выход статьи «Attention Is All You Need» сделал архитектуру Transformers мейнстримом, предложив полностью отказаться от рекурсии в пользу механизма Self-Attention .
- Эра генеративного ИИ (с 2022 года по настоящее время): Появление моделей с миллиардами и триллионами параметров, таких как GPT-3, GPT-4 и Gemini, которые находят применение в медицине (AlphaFold), генерации видео (Sora) и программировании .
По мнению Дива, одного из лекторов, ИИ сейчас находится в точке «побега из лаборатории», когда технологии начинают напрямую влиять на повседневную жизнь и взаимодействие с технологиями .
🧠 Анатомия внимания: Как работают Transformers 9:56
В основе архитектуры лежит механизм внимания, который Стивен сравнивает с библиотечной системой . Для понимания процесса используются три ключевых компонента:
- Query (Запрос): То, что модель ищет в данный момент (например, «рецепт пиццы») .
- Key (Ключ): Идентификатор или краткое содержание информации, доступной в системе (названия разделов в библиотеке) .
- Value (Значение): Сама информация, которую необходимо извлечь .
Модель не просто ищет точное совпадение, а выполняет «мягкий поиск» (soft match), определяя распределение релевантности между всеми доступными данными .
Многоголовое внимание и блоки
Transformers используют Multi-head attention — механизм, при котором внимание вычисляется несколько раз параллельно . Это позволяет модели одновременно отслеживать разные типы связей в тексте: грамматические, смысловые и контекстные.
Стивен поясняет разницу между типами моделей:
- Encoder-Decoder (например, T5): Используется для перевода, где есть входной текст на одном языке и выходной на другом .
- Decoder-only (например, GPT): Авторегрессионные модели, которые предсказывают следующий токен, опираясь только на уже сгенерированный текст .
📈 Масштабирование и «эмерджентные» способности 18:02
Одной из самых обсуждаемых тем в ИИ является вопрос масштабирования (Scaling Laws). Эмили отмечает, что при увеличении объема вычислений и данных у моделей возникают «эмерджентные способности» — навыки, которые отсутствуют у малых моделей, но внезапно проявляются у крупных .
К таким способностям относят сложную арифметику, распознавание лжи или транслитерацию . Этот процесс напоминает фазовый переход: точность модели долгое время остается на нуле, а затем резко взлетает при достижении определенного порога параметров .
Однако в научном сообществе ведется дискуссия. Эмили упоминает исследование ученых из Stanford University, которые утверждают, что эмерджентные способности могут быть иллюзией, вызванной выбором нелинейных метрик оценки, а не фундаментальными изменениями в модели . (Другие исследователи, включая Джейсона Вея из OpenAI, с этой точкой зрения не согласны и продолжают изучать феномен эмерджентности).
🤖 От моделей к агентам: AI Software 3.0 49:46
Див предлагает концепцию «Software 3.0», где человек общается с компьютером на естественном языке, а ИИ-агент управляет интерфейсами . Главное отличие агента от простой языковой модели заключается в способности совершать действия, планировать и обладать долгосрочной памятью.
Уровни автономии агентов (по аналогии с беспилотными авто) :
- L0–L2: Человек полностью контролирует процесс, ИИ лишь помогает.
- L3–L4: ИИ выполняет большую часть работы, но человек должен быть готов вмешаться.
- L5: Полная автономия (например, агент сам бронирует билеты, совершает платежи и решает проблемы без участия пользователя) .
В качестве примера Див показал демо своего стартапа, где ИИ-агент успешно сдал онлайн-экзамен на водительские права в Калифорнии, самостоятельно управляя браузером и отвечая на вопросы . При этом система DMV не смогла распознать бота, несмотря на установленное защитное ПО .
LLM как операционная система
Андрей Карпатый предложил аналогию «LLM OS», где большая языковая модель выступает в роли центрального процессора (CPU) :
- Контекстное окно — это оперативная память (RAM) .
- Векторные базы данных — это жесткий диск (File System) .
- Интерпретатор Python или калькулятор — это арифметико-логическое устройство (ALU) .
⚠️ Проблемы и барьеры на пути к AGI 26:43
Несмотря на успехи, архитектура Transformers имеет ряд критических ограничений, которые обсуждали все участники дискуссии:
- Эффективность обучения: Ллмы обучаются на колоссальных объемах данных (в 10 000 – 1 000 000 раз больше, чем нужно ребенку для освоения языка) .
- Галлюцинации: Модели часто уверены в фактически неверной информации .
- «Забывчивость»: Знания моделей зафиксированы на момент окончания обучения. Решить это пытаются через RAG (Retrieval-Augmented Generation), но это лишь внешняя «надстройка», а не изменение «мозга» модели .
- Безопасность агентов: Предоставление ИИ доступа к банковским счетам или личным данным требует создания новых протоколов безопасности и «песочниц» .
По словам Стивена, одной из важнейших задач является Model Editing — возможность изменять конкретные знания в нейросети (например, столицу страны) без полной перетренировки модели, воздействуя на специфические узлы .