Google выпустила конструктор ИИ-агентов: тест-драйв Vertex AI Agent Builder от Уэса Рота

Wes Roth 39,5 тыс. 12 мин 4 мин 12.04.2024
Главное

Компания Google официально открыла доступ к Vertex AI Agent Builder — платформе, которая обещает демократизировать создание автономных ИИ-агентов. Автор канала Wes Roth провел первый тест-драйв инструмента, чтобы выяснить, действительно ли технология «no-code» готова к массовому использованию или она всё еще остается прерогативой разработчиков.

🚀 Первое знакомство: обещания Google и реальность консоли 0:00

Несколько дней назад Google анонсировала внедрение ИИ-агентов во все свои системы для автоматизации клиентского сервиса, шопинга и повседневных задач . Главным событием стал релиз Vertex AI Agent Builder — платформы, которая, по утверждению компании, позволяет любому человеку, независимо от технического бэкграунда, создавать собственных агентов для бизнеса или личной продуктивности .

Однако первые шаги в консоли Google Cloud оказались не самыми гладкими. При попытке настроить среду Wes Roth столкнулся с несколькими сбоями в работе интерфейса . Ему пришлось пробовать разные регионы и имена проектов, прежде чем система позволила создать первое приложение .

Основные характеристики платформы на старте:

🛠 Архитектура агента: инструменты, инструкции и «магические заклинания» 2:02

Процесс создания агента начинается с определения его роли и целей. Уэс Рот попытался создать «Агента Ноль» — торгового помощника для интернет-магазина . Инструкции пишутся на естественном языке, например: «Ты — помощник, который помогает клиентам покупать товары и подтверждает детали заказа» .

Однако, по мнению ведущего, обещание «no-code» (без кода) пока выглядит преувеличенным. Для полноценной работы агенту требуются:

  1. Инструменты (Tools): Возможность подключения через OpenAPI, функции или хранилища данных .
  2. Связки агентов: Один «главный» агент может вызывать других специализированных агентов для подзадач .
  3. Интеграции: Готовые модули для мессенджеров, позволяющие встраивать агентов в существующие каналы связи .

Уэс Рот подчеркивает, что для использования инструментов пользователю всё равно необходимо понимать, как работают API и JSON-запросы . По его оценке, на текущем этапе платформа больше ориентирована на веб-разработчиков, чем на рядовых пользователей, хотя Google и пытается сделать интерфейс максимально доступным .

🤖 Эксперимент с «роими агентов»: почему инструкции — это еще не всё 3:27

В ходе часового тестирования автор создал систему из двух агентов: «Торгового ассистента» и «Кодового агента» .

Для вычислений Уэс Рот подключил расширение Code Interpreter, аналогичное тому, что есть в OpenAI, которое позволяет ИИ оперировать цифрами и кодом . Тем не менее, он признает, что система «из коробки» работает не идеально .

Ключевым открытием стало то, что эффективность агента критически зависит от раздела Examples (Примеры). Это реализация метода few-shot prompting: пользователю нужно детально расписать примеры диалогов, чтобы модель поняла, в какой момент вызывать инструменты или переключаться на другого агента . По словам Уэса, если раздел с примерами пуст или плохо проработан, агент «валится» и не может эффективно выполнять задачи .

🏛 Разбор кейса от Google: управление очередью в DMV 6:01

В качестве образца Google предоставляет пресеты, такие как агент для департамента транспорта (DMV) . Это «рулевой» агент (steering agent), задача которого — не помогать клиенту напрямую, а максимально быстро направить его к узкоспециализированному помощнику .

Структура DMV-помощника включает:

При тестировании выяснилось, что в демо-режиме функции записи не работают полноценно, так как они ссылаются на фиктивные адреса (example.com), но сама логика переключения между ролями работает исправно . Аналогичный пример Google реализовала для ритейла, где агент через API подключается к Google Store для поиска товаров и управления корзиной .

🔮 Будущее программирования: от кода к естественному языку 9:25

Подводя итог, Уэс Рот задается вопросом: является ли это революцией? Он считает, что Google создала «прото-билдер» — базовую, рудиментарную версию того, что ждет нас в будущем .

Ведущий выделяет несколько важных трендов:

  1. Магические инкантации: Создание агентов начинает напоминать написание заклинаний, где в текст инструкции вставляются специальные маркеры для вызова других сущностей или инструментов .
  2. Агентные рои (Agentic Swarms): Будущее за множеством мелких агентов, каждый из которых идеально выполняет одну задачу, под управлением одного «мастера» .
  3. Закат классического кода: Уэс утверждает, основываясь на отчетах NVIDIA, OpenAI и Microsoft, что естественный язык постепенно вытесняет страницы традиционного кода . Программирование превращается в написание четких инструкций на человеческом языке с небольшими вкраплениями программных вставок там, где нужна математическая точность .

Хотя текущий Vertex AI Agent Builder может разочаровать своей сложностью для новичков, Уэс Рот подчеркивает, что это важный шаг в правильном направлении . Технологии развиваются быстро, и скоро ИИ сам будет понимать, какие API и хуки ему нужны, переводя наши желания в работающий софт .

💬 Цитаты

«Это не совсем «момент ChatGPT» для ИИ-агентов, но Google построила базовый, рудиментарный прототип первой волны.»

«Вместо страниц кода многое из того, что мы будем делать с компьютерами, будет выглядеть как естественный язык.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
No-code
Подход к созданию ПО, не требующий написания программного кода вручную.
Few-shot prompting
Метод обучения языковой модели, при котором ей предоставляется несколько примеров выполнения задачи в самом запросе.
Agentic Swarm
Система из множества специализированных ИИ-агентов, работающих совместно над одной сложной задачей.
Code Interpreter
Инструмент, позволяющий ИИ-модели писать и исполнять программный код для точных вычислений.
RAG (Retrieval-Augmented Generation)
Технология, позволяющая ИИ искать информацию во внешних базах данных перед генерацией ответа.
📊 Цифры
🗓 Хронология
  1. Апрель 2024 Google анонсирует ИИ-агентов и открывает доступ к Vertex AI Agent Builder.
  2. Апрель 2024 Claude 3 Opus становится доступен в публичном превью на Google Cloud.
⚖️ Другая сторона
Искусственный интеллект Google Vertex AI Agent Builder Gemini 1.0 Pro Wes Roth AI Agents