В рамках конференции Google I/O состоялась панельная дискуссия, посвященная наступлению «эры агентов» в искусственном интеллекте. Ведущие эксперты компании — Корай Кавукчуоглу, Джефф Дин, Лиз Рид и Джош Вудворд — обсудили, как новые модели семейства Gemini трансформируют привычные рабочие процессы: от написания кода до планирования отпуска и управления календарем.
🚀 Наступление эры агентного ИИ 0:05
Открывая дискуссию, участники сошлись во мнении, что выход модели Gemini 1.5 Flash и обновление линейки Gemini знаменуют собой переход от простых чат-ботов к полноценным ИИ-агентам . По словам Корая Кавукчуоглу (CTO Google DeepMind), главной целью разработки серии 1.5 было радикальное улучшение способностей ИИ к рассуждению и выполнению длительных, многоэтапных задач (long-horizon tasks) .
Ключевые факторы, обеспечившие этот скачок:
- Интенсивное внутреннее тестирование: разработчики Google сами используют Gemini для написания кода, что позволило выявить узкие места в рабочих процессах и оперативно внедрить решения в архитектуру моделей .
- Глубокая мультимодальность: понимание контекста через видео, аудио и текст позволяет агентам действовать в реальном мире, а не только в рамках текстового окна .
- Full-stack подход: эффективность агентов зависит не только от софта, но и от аппаратной части. Джефф Дин отметил, что восьмое поколение тензорных процессоров (TPU v8) спроектировано с учетом разделения задач обучения и инференса (вывода), что критически важно для скорости работы агентов .
⚡️ Компромисс между скоростью и ценностью 5:10
Лиз Рид, возглавляющая подразделение Google Search, подчеркнула, что в эпоху агентов понятие «задержки» (latency) радикально пересматривается. По её мнению, готовность пользователя ждать ответа напрямую зависит от сложности делегируемой задачи .
В поисковых системах и агентных сервисах выстраивается следующая иерархия ожиданий:
- Мгновенные ответы: если вопрос простой, пользователь ждет ответа за миллисекунды .
- Длительные задачи: если агент берет на себя планирование сложного маршрута для выходных (на что человек потратил бы 20 минут), пользователь готов подождать 10 секунд или даже минуту, занимаясь в это время другими делами .
- Асинхронное выполнение: для действительно масштабных задач (например, разработка архитектуры приложения) агенты должны работать в фоновом режиме, уведомляя пользователя о завершении этапов .
Это привело к созданию концепции Gemini Spark — «всегда включенного» 24/7 агента для подписчиков Gemini Advanced. Джош Вудворд рассказал, что использует Spark для автоматической обработки почты от руководства: агент может сам провести исследование по теме вопроса и подготовить черновик ответа, ожидая лишь финального одобрения .
💻 Революция в разработке ПО: переход к «машинным скоростям» 15:40
Джефф Дин выдвинул тезис о том, что существующая инфраструктура разработки ПО адаптирована под возможности человека, что становится бутылочным горлышком для ИИ. Большинство внутренних инструментов написаны для «человеческой частоты» взаимодействия .
Интересные факты о трансформации внутри Google:
- Оптимизация кода силами ИИ: многие внутренние инструменты Google были написаны на Python для удобства людей. С помощью Gemini команды переписывают их на Go, что ускоряет работу в 10–20 раз. Модель получает на вход код на Python и набор тестов, выдавая на выходе оптимизированную систему на Go .
- Смерть PRD (Project Requirements Documents): Джош Вудворд отметил, что некоторые команды Labs месяцами не пишут традиционную документацию. Вместо этого они ведут файлы в формате Markdown (например,
design.md), которые читаемы и человеком, и машиной напрямую . - Асинхронное программирование: Корай Кавукчуоглу признался, что благодаря агентам вернулся к написанию кода. Он может поставить агенту задачу вечером, а утром проверить результат, что позволяет сохранять продуктивность даже при крайне плотном графике руководителя .
🎨 Будущее интерфейсов и «Mission Control» 28:01
Эксперты обсудили, как изменится наше взаимодействие с компьютерами. Джефф Дин полагает, что если у каждого человека будет условно по «30 виртуальных стажеров», текущий интерфейс чата станет бесполезным .
Возможные сценарии развития интерфейсов:
- Панель управления (Dashboard): централизованный хаб для координации множества запущенных агентов .
- Голосовое управление: возврат к максимально естественному способу коммуникации, который будет «выкручен на максимум» .
- Кастомизация интерфейса самим ИИ: Лиз Рид предполагает, что в будущем агент сам будет решать, как представить информацию конкретному пользователю — в виде текста, подкаста или интерактивного графика, в зависимости от предпочтений человека .
🔍 Сюрпризы «магического» ИИ 31:31
В завершение дискуссии участники поделились моментами, которые их искренне удивили в последних разработках.
Для Корая Кавукчуоглу таким моментом стал эксперимент в Project Astra, где группа из сотен агентов за полтора дня смогла коллективно спроектировать и собрать работающую операционную систему с нуля по одной команде . Лиз Рид отметила удивительную синергию: инструменты для разработчиков (SDK агентов) оказались настолько эффективными, что их интегрировали в «сердце» обычного поиска Google, хотя раньше эти сферы считались изолированными .
Джош Вудворд выделил инструмент Google Vids (ранее упоминался как Flow), где профессиональные режиссеры могут буквально «вписывать» кодом свои собственные фильтры и визуальные эффекты, создавая софт внутри софта .