На конференции Google I/O 2026 ведущий Логан Килпатрик (Google DeepMind) обсудил с Джошем Вудвордом (Google Labs) и Тулси Доши (Google Gemini) переход к эпохе «агентов», эволюцию моделей семейства Gemini и будущее пользовательских интерфейсов. В ходе дискуссии участники раскрыли детали работы новых систем Spark и Omni, а также поделились видением того, как ИИ-модели начинают самостоятельно управлять рабочими процессами и бюджетами пользователей.
🤖 Новые модели: Интеллект, переходящий в действие 0:30
Главным лейтмотивом конференции в 2026 году стала концепция «интеллекта в действии» (intelligence with action) . По мнению Тулси Доши, сегодня невозможно обсуждать модели в отрыве от конкретных продуктов, так как грань между ними стирается.
Ключевые анонсы в области моделей:
- Gemini 3.5 Flash: Новая итерация модели, которую разработчики называют «рабочей лошадкой». Тулси Доши утверждает, что по результатам большинства бенчмарков Gemini 3.5 Flash уже превосходит прежнюю флагманскую модель 3.1 Pro .
- Gemini 3.5 Omni: Мультимодальная модель, ориентированная на работу с видео и создание иммерсивного контента.
- Эффект дистилляции: Разработчики (со ссылкой на Ориэля Виньялса и Джеффа Дина) отмечают «магическую» эффективность методов дистилляции знаний: возможности топовых про-моделей удается успешно переносить в более легкие и быстрые модели Flash .
Тулси Доши подчеркнула, что успех Gemini 3.5 Flash — это результат «превосходства в пост-обучении» (post-training excellence), включая использование методов обучения с подкреплением (RL) и тесную интеграцию модели с программной обвязкой (harness) .
🎬 Прорыв в видеопроизводстве: Проект Flow и Omni 1:39
Модель Omni продемонстрировала возможности глубокого редактирования видео, которые участники назвали «магическими». Джош Вудворд выделил продукт Google Flow, который позволяет управлять видеопроизводством на уровне режиссера:
- Scene Consistency: Модель сохраняет последовательность персонажей и окружения при смене ракурсов .
- Многокамерная съемка из одного кадра: Flow способен сгенерировать 16 различных углов обзора на основе одной исходной сцены .
- Ассистент режиссера: Пользователь может отдавать команды голосом (например, «измени это» или «добавь блесток при движении рук»), и модель мгновенно пересобирает видеоряд, сохраняя его целостность [02:56, 18:09].
Логан Килпатрик отметил, что демонстрация этих технологий меняет восприятие ИИ даже у скептиков, так как результат выглядит абсолютно естественным и когерентным .
💼 Агенты и Spark: От чатов к выполнению задач 6:39
Центральным продуктом для реализации «агентской» стратегии стал Gemini Spark — всегда включенный ассистент, работающий в фоновом режиме .
Джош Вудворд описывает работу со Spark как «перекидывание задач через плечо»: пользователь делает «дамп» мыслей или задач, а агент разбивает их на этапы, создает дашборд и приступает к исполнению .
Важные аспекты безопасности и доверия:
- Human-in-the-loop: Система спроектирована так, чтобы запрашивать подтверждение пользователя перед важными действиями, например, бронированием встречи или покупкой .
- Лимиты и бюджеты: Запущен протокол платежей для агентов через Google Wallet. Пользователь может установить лимит трат для агента (как «карманные деньги для подростка») и даже ограничить бюджет для конкретных магазинов .
- Градация контроля: Тулси Доши полагает, что со временем пользователи сами будут выбирать уровень автономности агента: от полного контроля каждого шага до автоматического принятия решений на основе прошлых выборов .
Spark будет доступен со следующей недели (после даты конференции) для подписчиков Google AI Ultra, начиная с США .
📈 Масштабирование и дизайн-вызовы 10:44
Google объявила, что приложение Gemini достигло 900 миллионов активных пользователей в месяц . Это создает уникальную дилемму для разработчиков: как создать интерфейс, который будет понятен новичку и при этом удовлетворит «пауэр-юзеров», настраивающих сложные триггеры и расписания.
Джош Вудворд считает, что решением является разработка масштабируемых интерфейсов :
- Для массового пользователя предлагается формат Daily Brief (персонализированный утренний дайджест).
- Для продвинутых пользователей — возможность «заглянуть под капот», загружать собственные навыки (skills) и настраивать heartbeat-графики для агентов.
🔮 Прогнозы: 10 000 продуктов или один интерфейс? 22:55
Участники обсудили будущее Google к 2027–2030 годам. Возник спор о том, как человечество будет потреблять софт в будущем.
- Гипотеза Джоша Вудворда: Возможно, Google превратится в «фабрику программного обеспечения», создавая сотни или даже тысячи узкоспециализированных продуктов для решения конкретных мировых проблем .
- Контраргумент Тулси Доши: Она считает, что количество видимых интерфейсов, скорее всего, сократится. Пользователю не нужно будет помнить 100 разных приложений; он будет просто говорить с Gemini, а модель сама подключит нужный «микро-сервис» или продукт за кулисами .
- Мнение Логана Килпатрика: Модели продолжат «поедать» программную обвязку. То, что сегодня кажется сложной системой из агентов и надстроек, через год будет восприниматься просто как базовая возможность новой модели .
В завершение Тулси Доши подчеркнула, что видение Демиса Хассабиса о «универсальном виртуальном ассистенте», который проактивно участвует в жизни человека, станет реальностью гораздо быстрее, чем многие ожидают .