В рамках конференции Google I/O специалисты Google представили новые возможности экосистемы Gemini, которые радикально упрощают создание ИИ-агентов. Главными темами сессии стали релиз Gemini 1.5 Flash Live для взаимодействия в реальном времени и анонс Interactions API — унифицированного интерфейса для управления сложными мультимодальными задачами и автономными агентами в облачных песочницах.
🎙️ Gemini 1.5 Flash Live: мультимодальность в реальном времени 5:47
Тор (Thor) из команды Google представил Gemini 1.5 Flash Live — модель, оптимизированную для диалогов с низкой задержкой (low-latency). В отличие от традиционных каскадных систем (где аудио сначала переводится в текст, а затем обрабатывается), это нативная аудио-модель, работающая по принципу «звук-в-звук» .
Ключевые особенности Live API:
- Потоковая передача: использование протокола WebSocket для одновременной отправки текста, аудио и видеокадров .
- Прерывания (Barging in): пользователь может перебить агента в любой момент, и модель мгновенно реагирует на изменение контекста .
- Зрение в реальном времени: модель понимает физику и контекст происходящего на видео (например, может прокомментировать одежду спикера или считать текст с кепки в прямом эфире) .
- Мультиязычность: поддержка более 90 языков с бесшовным переключением между ними .
В качестве демонстрации Тор показал «Live Jukebox» — проект, где Gemini в роли радио-диджея принимает заказы и через Function Calling обращается к музыкальной модели Lyria для генерации 30-секундных треков на лету .
🔗 Interactions API: новый стандарт общения с моделями 14:20
Филипп (Philip), разработчик Interactions API, представил новый интерфейс, который объединяет работу с обычными чат-моделями и сложными агентами. Главное нововведение здесь — Server-side state management .
В традиционных API разработчикам приходилось вручную хранить огромные массивы истории чата на стороне клиента. Interactions API берет это на себя:
- После первого запроса возвращается
interaction_id. - При последующих вызовах достаточно передать этот ID, и модель будет помнить весь контекст диалога .
- Интерфейс унифицирован для всех типов генерации: текста, аудио (модель Flash TTS) и изображений (Imagen 3) .
По словам Филиппа, это делает код более читаемым не только для людей, но и для самих ИИ-агентов, которым проще ориентироваться в стандартизированных паттернах вызовов .
🤖 Модель данных: от «ходов» к «шагам» 19:08
Разработчики пересмотрели саму структуру данных взаимодействия. Если раньше диалог строился по модели user_turn / model_turn, то для сложных агентов этого недостаточно .
В Interactions API введена концепция Steps Data Model:
- Каждое действие (рассуждение, вызов функции, получение результата от инструмента) является отдельным «шагом» (step) .
- Это позволяет прозрачно отслеживать логику агента: его «мысли» (thought blocks), вызовы внешних систем и финальные ответы .
🏗️ Управляемые агенты и облачные песочницы (Remote Sandboxes) 20:41
Одним из самых мощных анонсов стала возможность запуска агентов в удаленной защищенной среде. Теперь агент Gemini получает «собственный компьютер» для выполнения задач .
Технические возможности управляемых агентов:
- Полноценный доступ: исполнение кода, операции с файловой системой, поиск в Google Search и доступ к URL .
- Persistence (Постоянство): среда сохраняется. Можно создать файл в одном запросе и попросить агента отредактировать его в другом, используя
environment_id. - Изоляция и безопасность: для защиты личных данных используется проксирование. Агент может совершать API-вызовы, используя ключи разработчика, но сами ключи (credentials) физически недоступны для модели внутри песочницы — они подставляются в заголовки на стороне сервера .
Филипп продемонстрировал возможности системы, попросив агента написать игру на 3JS и создать погодный дашборд. Агент самостоятельно написал Python-скрипты для сбора данных, создал HTML-файл и проверил его работоспособность за один API-вызов .
🛠️ Инструментарий для разработчиков 30:08
Для ускорения разработки Google представила набор инструментов:
- Google AI Studio (ai.studio): основная площадка для получения ключей и тестирования Live API в браузере .
- Gemini API CLI: интерфейс командной строки для управления агентами и средами .
- Antigravity: агент для кодинга, который можно расширять собственными навыками (skills) и использовать в качестве базы для своих проектов .
- Ephemeral Tokens: кратковременные токены для безопасного подключения клиентских приложений напрямую к Live API без передачи основного ключа API .
В завершение сессии спикеры подчеркнули, что эра ручного управления инфраструктурой для ИИ уходит в прошлое — теперь разработчик может сосредоточиться на логике агента, доверив Gemini управление средой исполнения и контекстом .