# Google представила Gemini Live: ИИ-агенты получили «тело» в облаке и голос в реальном времени

Источник: https://www.youtube.com/watch?v=OdrOmc_RX8A
Канал: Google for Developers
Опубликовано: 21.05.2026

---

В рамках конференции Google I/O специалисты Google представили новые возможности экосистемы Gemini, которые радикально упрощают создание ИИ-агентов. Главными темами сессии стали релиз Gemini 1.5 Flash Live для взаимодействия в реальном времени и анонс Interactions API — унифицированного интерфейса для управления сложными мультимодальными задачами и автономными агентами в облачных песочницах.

## 🎙️ Gemini 1.5 Flash Live: мультимодальность в реальном времени
[[JUMP:05:47]]

Тор (Thor) из команды Google представил Gemini 1.5 Flash Live — модель, оптимизированную для диалогов с низкой задержкой (low-latency). В отличие от традиционных каскадных систем (где аудио сначала переводится в текст, а затем обрабатывается), это нативная аудио-модель, работающая по принципу «звук-в-звук» [06:44].

Ключевые особенности Live API:

*   **Потоковая передача:** использование протокола WebSocket для одновременной отправки текста, аудио и видеокадров [06:01].
*   **Прерывания (Barging in):** пользователь может перебить агента в любой момент, и модель мгновенно реагирует на изменение контекста [06:57].
*   **Зрение в реальном времени:** модель понимает физику и контекст происходящего на видео (например, может прокомментировать одежду спикера или считать текст с кепки в прямом эфире) [09:35].
*   **Мультиязычность:** поддержка более 90 языков с бесшовным переключением между ними [06:44].

В качестве демонстрации Тор показал «Live Jukebox» — проект, где Gemini в роли радио-диджея принимает заказы и через Function Calling обращается к музыкальной модели Lyria для генерации 30-секундных треков на лету [03:22].

## 🔗 Interactions API: новый стандарт общения с моделями
[[JUMP:14:20]]

Филипп (Philip), разработчик Interactions API, представил новый интерфейс, который объединяет работу с обычными чат-моделями и сложными агентами. Главное нововведение здесь — **Server-side state management** [15:37].

В традиционных API разработчикам приходилось вручную хранить огромные массивы истории чата на стороне клиента. Interactions API берет это на себя:

1.  После первого запроса возвращается `interaction_id` [16:02].
2.  При последующих вызовах достаточно передать этот ID, и модель будет помнить весь контекст диалога [16:14].
3.  Интерфейс унифицирован для всех типов генерации: текста, аудио (модель Flash TTS) и изображений (Imagen 3) [16:40].

По словам Филиппа, это делает код более читаемым не только для людей, но и для самих ИИ-агентов, которым проще ориентироваться в стандартизированных паттернах вызовов [17:33].

## 🤖 Модель данных: от «ходов» к «шагам»
[[JUMP:19:08]]

Разработчики пересмотрели саму структуру данных взаимодействия. Если раньше диалог строился по модели `user_turn / model_turn`, то для сложных агентов этого недостаточно [19:22]. 

В Interactions API введена концепция **Steps Data Model**:

*   Каждое действие (рассуждение, вызов функции, получение результата от инструмента) является отдельным «шагом» (step) [19:35].
*   Это позволяет прозрачно отслеживать логику агента: его «мысли» (thought blocks), вызовы внешних систем и финальные ответы [20:02].

## 🏗️ Управляемые агенты и облачные песочницы (Remote Sandboxes)
[[JUMP:20:41]]

Одним из самых мощных анонсов стала возможность запуска агентов в удаленной защищенной среде. Теперь агент Gemini получает «собственный компьютер» для выполнения задач [21:19].

Технические возможности управляемых агентов:

*   **Полноценный доступ:** исполнение кода, операции с файловой системой, поиск в Google Search и доступ к URL [21:06].
*   **Persistence (Постоянство):** среда сохраняется. Можно создать файл в одном запросе и попросить агента отредактировать его в другом, используя `environment_id` [21:57].
*   **Изоляция и безопасность:** для защиты личных данных используется проксирование. Агент может совершать API-вызовы, используя ключи разработчика, но сами ключи (credentials) физически недоступны для модели внутри песочницы — они подставляются в заголовки на стороне сервера [27:19].

Филипп продемонстрировал возможности системы, попросив агента написать игру на 3JS и создать погодный дашборд. Агент самостоятельно написал Python-скрипты для сбора данных, создал HTML-файл и проверил его работоспособность за один API-вызов [28:11].

## 🛠️ Инструментарий для разработчиков
[[JUMP:30:08]]

Для ускорения разработки Google представила набор инструментов:

*   **Google AI Studio (ai.studio):** основная площадка для получения ключей и тестирования Live API в браузере [00:43].
*   **Gemini API CLI:** интерфейс командной строки для управления агентами и средами [24:45].
*   **Antigravity:** агент для кодинга, который можно расширять собственными навыками (skills) и использовать в качестве базы для своих проектов [20:53].
*   **Ephemeral Tokens:** кратковременные токены для безопасного подключения клиентских приложений напрямую к Live API без передачи основного ключа API [11:00].

В завершение сессии спикеры подчеркнули, что эра ручного управления инфраструктурой для ИИ уходит в прошлое — теперь разработчик может сосредоточиться на логике агента, доверив Gemini управление средой исполнения и контекстом [37:14].