Эра ИИ-агентов: как Google планирует автоматизировать работу целых отделов

В рамках ежегодной конференции Google Cloud Next компания Google представила масштабное обновление своей экосистемы, сделав основной акцент на внедрении специализированных ИИ-агентов. Эти инструменты призваны трансформировать привычные рабочие процессы — от обслуживания клиентов и маркетинга до написания программного кода и обеспечения кибербезопасности.

🤖 Новая эра ИИ-агентов: концепция и база 0:00

Главной темой презентации Google Cloud Next стало превращение генеративного ИИ из простого чат-бота в полноценных «агентов» . В отличие от базовых моделей, агенты способны одновременно обрабатывать мультимодальную информацию, рассуждать, обучаться и принимать самостоятельные решения в рамках заданных бизнес-процессов .

По словам спикеров Google, ИИ-агенты изменят то, как люди взаимодействуют с вычислительными устройствами и интернетом. Фундаментом для этого выступает модель Gemini 1.5 Pro, которая обладает уникальным для индустрии контекстным окном в 1 миллион токенов .

Автор канала Wes Roth отмечает несколько ключевых технологических факторов:

Google адаптировала архитектуру «смеси экспертов» (Mixture of Experts), аналогичную той, что используется в GPT-4 .
Компания стремится вернуть себе лидерство в технологиях, которые она сама когда-то изобрела (трансформеры), но которые быстрее внедрила OpenAI .
Огромное контекстное окно Gemini 1.5 Pro позволяет модели анализировать гигантские объемы данных за один запрос, что критично для корпоративного сектора .

🛍️ Агенты для работы с клиентами 4:00

Google представила Vertex AI Agent Builder — инструмент, позволяющий компаниям создавать мощных агентов поддержки в три этапа . Эти агенты поддерживают свободное общение с использованием текста, голоса и видео, а также могут быть персонализированы с помощью кастомных голосовых моделей .

В ходе демонстрации на примере магазина «Symbol Fashion» было показано, как ИИ-агент помогает пользователю найти вещь по видеофрагменту .

Мультимодальность: пользователь загрузил видео с концерта, и агент распознал рубашку на клавишнике .
Бесшовный переход: когда пользователь позвонил в магазин, голосовой агент уже знал историю чата и предложил применить бонусный ваучер на 20% .
Допродажи: ИИ автоматически подобрал к покупке ботинки и белую рубашку, соответствующие стилю .

Wes Roth выражает опасение, что компании могут злоупотреблять этой технологией для агрессивного маркетинга, внедряя «жесткие продажи» прямо в процессе консультации .

👔 Агенты-сотрудники: автоматизация рутины 9:07

Для внутреннего использования в компаниях Google предлагает «агентов-сотрудников», интегрированных в Google Workspace. Основная цель — избавить людей от необходимости вручную изучать сотни страниц документов .

Ключевые возможности, показанные на презентации:

Сравнение документов: Gemini в боковой панели Google Docs может сравнить два 70-страничных предложения от вендоров по цене за несколько секунд .
Проверка комплаенса: Агент способен сопоставить проект контракта с внутренним 100-страничным сводом правил компании и выявить нарушения (например, отсутствие сертификатов безопасности) .
Здравоохранение: Система Katy в HCA Healthcare помогает медсестрам передавать смену, суммируя данные о пациентах разговорным языком, чтобы сократить время на бумажную работу .

Особо впечатляющим примером стала автоматизация анализа корпоративных льгот . Агент смог проанализировать 14-страничное письмо и часовое видеопрезентацию о медицинской страховке, после чего нашел в сети стоматолога, входящего в страховую сеть и работающего по субботам, и назначил встречу, сверившись с календарем сотрудника .

🎬 Google Vids и креативные инструменты 17:25

Google анонсировала новое приложение в составе Workspace — Google Vids . Это ИИ-помощник для создания видеопрезентаций, который берет на себя роль сценариста, редактора и продюсера.

Пользователь вводит промпт или ссылается на документ, а Gemini предлагает структуру сюжета .
Приложение автоматически подбирает стоковые видео, музыку и генерирует закадровый голос .

Для отделов маркетинга представлены обновления в Imagine 2.0. Теперь доступна генерация «живых изображений» (Text-to-Live Image) — коротких анимированных фрагментов (распускающийся цветок, кипящее на плите блюдо) . Также внедрена технология цифровых водяных знаков Synth ID от Google DeepMind для маркировки ИИ-контента .

Креативный агент может анализировать всю историю бренда (тысячи изображений и документов в Drive), чтобы создавать новые кампании, соответствующие уникальному стилю . В одном из демо ИИ мгновенно превратил рекламный сюжет для опытных туристов в контент для «расслабленного кемпинга», изменив как визуал, так и тональность текста .

💻 Gemini Code Assist: прорыв в разработке 25:51

Новый инструмент Gemini Code Assist (ранее Duet AI) нацелен на радикальное повышение производительности программистов. Wes Roth цитирует данные Goldman Sachs, согласно которым помощники могут повысить эффективность кодинга на 40% .

Благодаря контекстному окну в 1 млн токенов, Code Assist понимает всю кодовую базу целиком, а не отдельные фрагменты .

Модель может обрабатывать до 100 000 строк кода, в то время как конкуренты часто ограничены 12–15 тысячами .
В примере новый разработчик с помощью ИИ смог за минуты перенести функцию рекомендаций на главную страницу сайта, опираясь на визуальный макет из Figma и учитывая все зависимости в микросервисах .
По оценке Google, ручной анализ такого объема файлов занял бы у человека 70 часов непрерывного чтения .

📊 Агенты по работе с данными и безопасностью 31:21

Data Agents позволяют вести диалог с корпоративными данными на естественном языке, используя BigQuery и Looker для прогнозирования . Например, агент в ритейле может выявить разрыв между спросом и предложением на 3 месяца вперед и предложить альтернативные товары для закупки .

Важным направлением стали Security Agents. В условиях растущего числа кибератак ИИ-агенты будут работать в режиме 24/7, занимаясь предотвращением, обнаружением и реагированием на угрозы . Google объединяет здесь свой опыт с данными компании Mandiant (специалисты по реагированию на инциденты), чтобы выявлять возникающие риски на ранних стадиях .

Wes Roth подчеркивает, что развитие ИИ создает новые векторы атак — злоумышленники могут использовать нейросети для поиска скрытых связей в разрозненных данных, поэтому внедрение защитных ИИ-агентов станет критически важным в ближайшее десятилетие .