Google представила Gemini Live: ИИ-агенты получили «тело» в облаке и голос в реальном времени

Google for Developers 1,9 тыс. 38 мин 3 мин 21.05.2026
Главное

В рамках конференции Google I/O специалисты Google представили новые возможности экосистемы Gemini, которые радикально упрощают создание ИИ-агентов. Главными темами сессии стали релиз Gemini 1.5 Flash Live для взаимодействия в реальном времени и анонс Interactions API — унифицированного интерфейса для управления сложными мультимодальными задачами и автономными агентами в облачных песочницах.

🎙️ Gemini 1.5 Flash Live: мультимодальность в реальном времени 5:47

Тор (Thor) из команды Google представил Gemini 1.5 Flash Live — модель, оптимизированную для диалогов с низкой задержкой (low-latency). В отличие от традиционных каскадных систем (где аудио сначала переводится в текст, а затем обрабатывается), это нативная аудио-модель, работающая по принципу «звук-в-звук» .

Ключевые особенности Live API:

В качестве демонстрации Тор показал «Live Jukebox» — проект, где Gemini в роли радио-диджея принимает заказы и через Function Calling обращается к музыкальной модели Lyria для генерации 30-секундных треков на лету .

🔗 Interactions API: новый стандарт общения с моделями 14:20

Филипп (Philip), разработчик Interactions API, представил новый интерфейс, который объединяет работу с обычными чат-моделями и сложными агентами. Главное нововведение здесь — Server-side state management .

В традиционных API разработчикам приходилось вручную хранить огромные массивы истории чата на стороне клиента. Interactions API берет это на себя:

  1. После первого запроса возвращается interaction_id .
  2. При последующих вызовах достаточно передать этот ID, и модель будет помнить весь контекст диалога .
  3. Интерфейс унифицирован для всех типов генерации: текста, аудио (модель Flash TTS) и изображений (Imagen 3) .

По словам Филиппа, это делает код более читаемым не только для людей, но и для самих ИИ-агентов, которым проще ориентироваться в стандартизированных паттернах вызовов .

🤖 Модель данных: от «ходов» к «шагам» 19:08

Разработчики пересмотрели саму структуру данных взаимодействия. Если раньше диалог строился по модели user_turn / model_turn, то для сложных агентов этого недостаточно .

В Interactions API введена концепция Steps Data Model:

🏗️ Управляемые агенты и облачные песочницы (Remote Sandboxes) 20:41

Одним из самых мощных анонсов стала возможность запуска агентов в удаленной защищенной среде. Теперь агент Gemini получает «собственный компьютер» для выполнения задач .

Технические возможности управляемых агентов:

Филипп продемонстрировал возможности системы, попросив агента написать игру на 3JS и создать погодный дашборд. Агент самостоятельно написал Python-скрипты для сбора данных, создал HTML-файл и проверил его работоспособность за один API-вызов .

🛠️ Инструментарий для разработчиков 30:08

Для ускорения разработки Google представила набор инструментов:

В завершение сессии спикеры подчеркнули, что эра ручного управления инфраструктурой для ИИ уходит в прошлое — теперь разработчик может сосредоточиться на логике агента, доверив Gemini управление средой исполнения и контекстом .

💬 Цитаты

«Gemini 3.1 Flash Live — это нативная аудио-модель, мы переходим к формату «звук-в-звук» без промежуточного текста.»

«Каждый агент становится своей маленькой коробочкой, где он может выполнять работу и возвращать результат пользователю.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Low-latency
Низкая задержка в передаче данных, критически важная для естественного общения голосом.
Function Calling
Способность ИИ-модели вызывать внешние программные функции для выполнения конкретных задач.
Sandbox (Песочница)
Изолированная среда выполнения программного кода, исключающая риск повреждения основной системы.
Ephemeral Tokens
Временные ключи доступа с ограниченным сроком жизни для безопасного подключения клиентов.
📊 Цифры
🗓 Хронология
  1. Декабрь 2023 Запуск первой версии управляемого агента Deep Research.
  2. Вчера (перед сессией) Анонс удаленных песочниц (Remote Sandbox) и агента Antigravity на Developer Keynote.
⚖️ Другая сторона
Искусственный интеллект Gemini API Interactions API Google AI Studio Gemini 1.5 Flash Antigravity