# Google I/O 2026 Recap with Logan Kilpatrick, Josh Woodward and Tulsee Doshi

Источник: https://www.youtube.com/watch?v=RsDSeMXaCak
Канал: Google for Developers
Опубликовано: 22.05.2026

---

На конференции Google I/O 2026 ведущий Логан Килпатрик (Google DeepMind) обсудил с Джошем Вудвордом (Google Labs) и Тулси Доши (Google Gemini) переход к эпохе «агентов», эволюцию моделей семейства Gemini и будущее пользовательских интерфейсов. В ходе дискуссии участники раскрыли детали работы новых систем Spark и Omni, а также поделились видением того, как ИИ-модели начинают самостоятельно управлять рабочими процессами и бюджетами пользователей.

## 🤖 Новые модели: Интеллект, переходящий в действие
[[JUMP:00:30]]

Главным лейтмотивом конференции в 2026 году стала концепция «интеллекта в действии» (intelligence with action) [00:44]. По мнению Тулси Доши, сегодня невозможно обсуждать модели в отрыве от конкретных продуктов, так как грань между ними стирается.

Ключевые анонсы в области моделей:

*   **Gemini 3.5 Flash:** Новая итерация модели, которую разработчики называют «рабочей лошадкой». Тулси Доши утверждает, что по результатам большинства бенчмарков Gemini 3.5 Flash уже превосходит прежнюю флагманскую модель 3.1 Pro [04:18].
*   **Gemini 3.5 Omni:** Мультимодальная модель, ориентированная на работу с видео и создание иммерсивного контента.
*   **Эффект дистилляции:** Разработчики (со ссылкой на Ориэля Виньялса и Джеффа Дина) отмечают «магическую» эффективность методов дистилляции знаний: возможности топовых про-моделей удается успешно переносить в более легкие и быстрые модели Flash [04:03].

Тулси Доши подчеркнула, что успех Gemini 3.5 Flash — это результат «превосходства в пост-обучении» (post-training excellence), включая использование методов обучения с подкреплением (RL) и тесную интеграцию модели с программной обвязкой (harness) [05:23].

## 🎬 Прорыв в видеопроизводстве: Проект Flow и Omni
[[JUMP:01:39]]

Модель Omni продемонстрировала возможности глубокого редактирования видео, которые участники назвали «магическими». Джош Вудворд выделил продукт **Google Flow**, который позволяет управлять видеопроизводством на уровне режиссера:

1.  **Scene Consistency:** Модель сохраняет последовательность персонажей и окружения при смене ракурсов [03:24].
2.  **Многокамерная съемка из одного кадра:** Flow способен сгенерировать 16 различных углов обзора на основе одной исходной сцены [03:11].
3.  **Ассистент режиссера:** Пользователь может отдавать команды голосом (например, «измени это» или «добавь блесток при движении рук»), и модель мгновенно пересобирает видеоряд, сохраняя его целостность [02:56, 18:09].

Логан Килпатрик отметил, что демонстрация этих технологий меняет восприятие ИИ даже у скептиков, так как результат выглядит абсолютно естественным и когерентным [02:31].

## 💼 Агенты и Spark: От чатов к выполнению задач
[[JUMP:06:39]]

Центральным продуктом для реализации «агентской» стратегии стал **Gemini Spark** — всегда включенный ассистент, работающий в фоновом режиме [06:52].

Джош Вудворд описывает работу со Spark как «перекидывание задач через плечо»: пользователь делает «дамп» мыслей или задач, а агент разбивает их на этапы, создает дашборд и приступает к исполнению [06:52].

Важные аспекты безопасности и доверия:

*   **Human-in-the-loop:** Система спроектирована так, чтобы запрашивать подтверждение пользователя перед важными действиями, например, бронированием встречи или покупкой [08:10].
*   **Лимиты и бюджеты:** Запущен протокол платежей для агентов через Google Wallet. Пользователь может установить лимит трат для агента (как «карманные деньги для подростка») и даже ограничить бюджет для конкретных магазинов [09:28].
*   **Градация контроля:** Тулси Доши полагает, что со временем пользователи сами будут выбирать уровень автономности агента: от полного контроля каждого шага до автоматического принятия решений на основе прошлых выборов [10:06].

Spark будет доступен со следующей недели (после даты конференции) для подписчиков Google AI Ultra, начиная с США [07:19].

## 📈 Масштабирование и дизайн-вызовы
[[JUMP:10:44]]

Google объявила, что приложение Gemini достигло **900 миллионов активных пользователей в месяц** [10:44]. Это создает уникальную дилемму для разработчиков: как создать интерфейс, который будет понятен новичку и при этом удовлетворит «пауэр-юзеров», настраивающих сложные триггеры и расписания.

Джош Вудворд считает, что решением является разработка масштабируемых интерфейсов [14:01]:

*   Для массового пользователя предлагается формат **Daily Brief** (персонализированный утренний дайджест).
*   Для продвинутых пользователей — возможность «заглянуть под капот», загружать собственные навыки (skills) и настраивать heartbeat-графики для агентов.

## 🔮 Прогнозы: 10 000 продуктов или один интерфейс?
[[JUMP:22:55]]

Участники обсудили будущее Google к 2027–2030 годам. Возник спор о том, как человечество будет потреблять софт в будущем.

*   **Гипотеза Джоша Вудворда:** Возможно, Google превратится в «фабрику программного обеспечения», создавая сотни или даже тысячи узкоспециализированных продуктов для решения конкретных мировых проблем [24:01].
*   **Контраргумент Тулси Доши:** Она считает, что количество видимых интерфейсов, скорее всего, сократится. Пользователю не нужно будет помнить 100 разных приложений; он будет просто говорить с Gemini, а модель сама подключит нужный «микро-сервис» или продукт за кулисами [24:53].
*   **Мнение Логана Килпатрика:** Модели продолжат «поедать» программную обвязку. То, что сегодня кажется сложной системой из агентов и надстроек, через год будет восприниматься просто как базовая возможность новой модели [27:43].

В завершение Тулси Доши подчеркнула, что видение Демиса Хассабиса о «универсальном виртуальном ассистенте», который проактивно участвует в жизни человека, станет реальностью гораздо быстрее, чем многие ожидают [29:01].