Эволюция нейросетей: от «Attention Is All You Need» до агентов L5

Stanford Online 76 тыс. 1 ч 17 мин 4 мин 23.04.2024
Главное

В Стэнфордском университете стартовала четвертая итерация курса CS25, посвященного архитектуре Transformers и их влиянию на современный искусственный интеллект. В вводной лекции исследователи и преподаватели курса разбирают путь от первых механизмов внимания до создания автономных агентов и «нейронных компьютеров», которые начинают выходить за пределы лабораторий в реальный мир.

🕰️ От ELIZA до GPT-4: Эволюция понимания языка 4:05

История обработки естественного языка (NLP) прошла путь от жестко заданных правил до гибких вероятностных моделей. Преподаватели выделяют несколько ключевых эпох:

По мнению Дива, одного из лекторов, ИИ сейчас находится в точке «побега из лаборатории», когда технологии начинают напрямую влиять на повседневную жизнь и взаимодействие с технологиями .

🧠 Анатомия внимания: Как работают Transformers 9:56

В основе архитектуры лежит механизм внимания, который Стивен сравнивает с библиотечной системой . Для понимания процесса используются три ключевых компонента:

  1. Query (Запрос): То, что модель ищет в данный момент (например, «рецепт пиццы») .
  2. Key (Ключ): Идентификатор или краткое содержание информации, доступной в системе (названия разделов в библиотеке) .
  3. Value (Значение): Сама информация, которую необходимо извлечь .

Модель не просто ищет точное совпадение, а выполняет «мягкий поиск» (soft match), определяя распределение релевантности между всеми доступными данными .

Многоголовое внимание и блоки

Transformers используют Multi-head attention — механизм, при котором внимание вычисляется несколько раз параллельно . Это позволяет модели одновременно отслеживать разные типы связей в тексте: грамматические, смысловые и контекстные.

Стивен поясняет разницу между типами моделей:

📈 Масштабирование и «эмерджентные» способности 18:02

Одной из самых обсуждаемых тем в ИИ является вопрос масштабирования (Scaling Laws). Эмили отмечает, что при увеличении объема вычислений и данных у моделей возникают «эмерджентные способности» — навыки, которые отсутствуют у малых моделей, но внезапно проявляются у крупных .

К таким способностям относят сложную арифметику, распознавание лжи или транслитерацию . Этот процесс напоминает фазовый переход: точность модели долгое время остается на нуле, а затем резко взлетает при достижении определенного порога параметров .

Однако в научном сообществе ведется дискуссия. Эмили упоминает исследование ученых из Stanford University, которые утверждают, что эмерджентные способности могут быть иллюзией, вызванной выбором нелинейных метрик оценки, а не фундаментальными изменениями в модели . (Другие исследователи, включая Джейсона Вея из OpenAI, с этой точкой зрения не согласны и продолжают изучать феномен эмерджентности).

🤖 От моделей к агентам: AI Software 3.0 49:46

Див предлагает концепцию «Software 3.0», где человек общается с компьютером на естественном языке, а ИИ-агент управляет интерфейсами . Главное отличие агента от простой языковой модели заключается в способности совершать действия, планировать и обладать долгосрочной памятью.

Уровни автономии агентов (по аналогии с беспилотными авто) :

В качестве примера Див показал демо своего стартапа, где ИИ-агент успешно сдал онлайн-экзамен на водительские права в Калифорнии, самостоятельно управляя браузером и отвечая на вопросы . При этом система DMV не смогла распознать бота, несмотря на установленное защитное ПО .

LLM как операционная система

Андрей Карпатый предложил аналогию «LLM OS», где большая языковая модель выступает в роли центрального процессора (CPU) :

⚠️ Проблемы и барьеры на пути к AGI 26:43

Несмотря на успехи, архитектура Transformers имеет ряд критических ограничений, которые обсуждали все участники дискуссии:

  1. Эффективность обучения: Ллмы обучаются на колоссальных объемах данных (в 10 000 – 1 000 000 раз больше, чем нужно ребенку для освоения языка) .
  2. Галлюцинации: Модели часто уверены в фактически неверной информации .
  3. «Забывчивость»: Знания моделей зафиксированы на момент окончания обучения. Решить это пытаются через RAG (Retrieval-Augmented Generation), но это лишь внешняя «надстройка», а не изменение «мозга» модели .
  4. Безопасность агентов: Предоставление ИИ доступа к банковским счетам или личным данным требует создания новых протоколов безопасности и «песочниц» .

По словам Стивена, одной из важнейших задач является Model Editing — возможность изменять конкретные знания в нейросети (например, столицу страны) без полной перетренировки модели, воздействуя на специфические узлы .


💬 Цитаты

«ИИ покинул лабораторию. Теперь он находит реальное применение и начинает доминировать в обществе.»

«Мы можем представить, что через 5 лет все голливудские фильмы будут создаваться видеомоделями, и актеры станут не нужны.»

«AGI — это, по сути, состояние постоянного саморефлексии модели.»

👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Self-Attention
Механизм, позволяющий модели определять важность каждого слова в предложении относительно всех остальных слов.
RAG (Retrieval-Augmented Generation)
Метод, при котором модель ищет информацию во внешней базе данных перед генерацией ответа.
DPO (Direct Preference Optimization)
Более быстрый и эффективный алгоритм настройки модели под предпочтения человека, чем классический RLHF.
Hallucination
Явление, при котором ИИ генерирует фактически неверную, но правдоподобно звучащую информацию.
📊 Цифры
🗓 Хронология
  1. 1966 Создание ELIZA, одного из первых чат-ботов на основе правил.
  2. 2014 Начало активного изучения механизмов внимания в нейросетях.
  3. 2017 Публикация статьи «Attention Is All You Need».
  4. 2023 Релиз GPT-4 и взрывной рост популярности генеративного ИИ.
⚖️ Другая сторона
Технологии и IT Stanford University Transformers LLM OS Multi-head attention Sora