ИИ-очки, 3D-звонки и спутники: чем удивила презентация Google I/O?

На ежегодной конференции Google I/O американская корпорация представила масштабное обновление своей экосистемы искусственного интеллекта. В рамках презентации, детально разобранной автором канала Wes Roth Уэсом Ротом, технологический гигант анонсировал новые версии моделей Gemini, продвинутых ИИ-агентов, а также инновационные устройства дополненной реальности. Ключевым лейтмотивом мероприятия стало превращение ИИ из простого собеседника в автономного помощника, способного решать сложнейшие задачи в реальном мире.

🧠 Эволюция языковых моделей: Gemini 2.5 Pro и Flash 0:42

Корпорация Google объявила о запуске новой линейки своих флагманских моделей, доступных для пользователей Android и iOS. По заверению разработчиков, представленная модель Gemini 2.5 Pro является их самой интеллектуальной моделью на сегодняшний день и лучшей базовой моделью в мире. На данный момент она уже возглавила популярные рейтинги, включая WebDev Arena в области программирования и общую таблицу лидеров LM Arena. Модель интегрирует технологию Learn LM, созданную совместно с экспертами в области образования, что делает её ведущим ИИ-инструментом для обучения.

Параллельно была анонсирована обновленная версия базовой модели — Gemini 2.5 Flash. Как заявляют представители компании, новая Flash улучшена практически по всем направлениям, включая рассуждения, написание кода и работу с длинным контекстом, уступая в рейтинге LM Arena только версии Pro.

Среди ключевых технологических новшеств моделей выделяются следующие функции:

Native Audio Output: Новые превью-версии технологии синтеза речи (Text-to-Speech) поддерживают функцию мульти-спикера для двух голосов одновременно. Модель способна улавливать тончайшие нюансы человеческой речи, переходить на шепот и бесшовно переключаться между 24 языками в рамках одного диалога.
Thinking Budgets: Инструмент «бюджета на размышления» дает разработчикам контроль над соотношением стоимости, задержки и качества генерации. Пользователи могут вручную настраивать количество токенов, которые ИИ тратит на «обдумывание» ответа перед отправкой, либо полностью отключать этот процесс. Функция уже доступна для Flash и в ближайшие недели появится в версии Pro.
Deep Think Mode: Специальный режим для Gemini 2.5 Pro, который, по утверждению Google, раздвигает границы возможностей модели за счет использования продвинутых параллельных техник рассуждения. В ходе тестов модель продемонстрировала выдающиеся результаты, набрав высокие баллы на сложнейшем математическом бенчмарке USAMO 2025 и ИТ-платформе Live CodeBench. Из-за высоких требований к безопасности доступ к Deep Think изначально откроют только для доверенных тестеров (Trusted Testers) через Gemini API.

🛠️ Инструменты разработчика: Project Mariner и агент Jules 3:09

Особое внимание на презентации было уделено развитию концепции ИИ-агентов — систем, сочетающих в себе продвинутый интеллект моделей с непосредственным доступом к внешним инструментам программирования и веб-серфингу. Разработчики продемонстрировали исследовательский прототип Project Mariner, способный автономно взаимодействовать с веб-страницами и браузерами.

В рамках обновления Project Mariner получил ряд критически важных изменений:

Многозадачность: ИИ теперь может параллельно контролировать и выполнять до 10 одновременных задач в веб-среде.
Функция Teach and Repeat: Пользователю достаточно один раз показать алгоритм выполнения задачи, после чего агент самостоятельно формирует план действий для аналогичных сценариев в будущем.

Инструментарий Project Mariner станет доступен разработчикам через Gemini API уже этим летом, а компании Automation Anywhere и UiPath уже начали закрытое тестирование системы. Для создания полноценной экосистемы Google развивает открытый протокол связи между агентами (Agent-to-Agent Protocol), который поддержали более 60 технологических партнеров. Кроме того, SDK Gemini теперь полностью совместим с Model Context Protocol (MCP), представленным стартапом Anthropic.

Еще одной громкой новинкой стал Jules — асинхронный ИИ-агент для написания кода, который перешел в стадию публичного бета-тестирования на сайте jules.google. Инструмент интегрируется напрямую с GitHub и способен самостоятельно решать комплексные задачи в крупных кодовых базах, такие как обновление устаревших версий Node.js, исправление багов и планирование архитектурных изменений, на которые у программистов уходили часы.

Также был упомянут экспериментальный инструмент Gemini Diffusion — модель диффузии текста, генерирующая ответы параллельно, а не классическим методом слева направо. По данным Google, эта технология позволяет ИИ моментально редактировать решения и исправлять ошибки в процессе генерации математического кода, работая в 5 раз быстрее модели 2.0 Flashlight.

🎨 Креативная恢复юция: ИИ-генерация мультимедиа и платформа Flow 12:10

Для обычных пользователей и создателей контента Google обновила свои мультимедийные инструменты ИИ. В официальное приложение Gemini интегрировали модель генерации изображений Imagen 4. По заявлениям разработчиков, модель совершила качественный скачок в реализме, передаче мелких деталей, отображении теней, водных капель, а также значительно лучше справляется с рендерингом текста и типографики.

В сфере видео- и аудиопроизводства компания представила следующие разработки:

Модель Veo 3 (VO3): Новое поколение ИИ-генератора видео, получившее встроенную функцию нативной генерации аудио. Теперь Veo 3 создает не просто фотореалистичный видеоряд с улучшенной физикой, но и автоматически генерирует фоновые шумы, звуковые эффекты и синхронизированную речь персонажей на основе текстового описания.
Модель Lyria 2: Инструмент для создания высокоточного музыкального контента и профессионального аудио, умеющий генерировать сложные вокальные партии, сольные исполнения и хоровое пение. Доступ к модели открыт для предприятий, музыкантов и авторов YouTube.
Платформа Flow: Абсолютно новый ИИ-инструмент для кинопроизводства, объединяющий возможности Veo, Imagen и Gemini. Платформа позволяет собирать видеоклипы по одному текстовому запросу, использовать точные настройки движения камеры, загружать собственные референсы и бесшовно расширять хронометраж сцены. Flow обеспечивает строгую консистентность персонажей и окружения между кадрами, позволяя авторам легко добавлять новые детали (например, десятифутовую курицу на заднее сиденье автомобиля) обычным описанием.

Все эти продвинутые возможности будут доступны в рамках обновленной тарифной сетки. Компания запускает подписку Google AI Pro (бывшая Gemini Advanced) с повышенными лимитами и премиальный тариф Google AI Ultra, который позиционируется как «VIP-пропуск» в мир ИИ от Google. Подписчики Ultra-плана получат самый ранний доступ к Deep Think, платформе Flow, а также пакет YouTube Premium и увеличенный объем облачного хранилища.

🕶️ Экосистема Android XR: Проект Muhan и умные очки будущего 19:04

Google официально представила операционную систему Android XR — первую программную платформу компании, разработанную непосредственно в эпоху больших языковых моделей и предназначенную для работы со всем спектром пространственных устройств, от гарнитур до легких очков. Система разрабатывалась единой командой совместно с Samsung и Qualcomm, чьи чипы Snapdragon легли в основу аппаратной архитектуры.

Первым коммерческим устройством на базе этой ОС станет гарнитура Project Muhan от компании Samsung, релиз которой запланирован на конец текущего года. Устройство предоставит пользователям «бесконечный экран» для взаимодействия со стандартными мобильными приложениями Android, усиленный встроенным помощником Gemini. В качестве примера использования авторы продемонстрировали интеграцию Google Maps, где пользователь может виртуально переместиться в любую точку мира, просто попросив об этом ИИ, или интерактивное приложение бейсбольной лиги MLB для просмотра матчей с трехмерной статистикой игроков.

Помимо тяжелых гарнитур, Google активно развивает форм-фактор умных очков для повседневного ношения. В рамках живой демонстрации представительница компании Ниша (Nisha) показала работу прототипа Android XR очков в реальном времени:

Аппаратное оснащение: Умные очки оснащены встроенными камерами и микрофонами для того, чтобы Gemini мог буквально «видеть и слышать» окружение, а также скрытыми динамиками и опциональным внутрилинзовым дисплеем для конфиденциального вывода контекстной информации.
Голосовое управление и навигация: С помощью очков можно отправлять текстовые сообщения, управлять уведомлениями смартфона, распознавать объекты вокруг (например, музыкальные группы на плакатах) и мгновенно прокладывать пешеходные 3D-маршруты по картам Google Maps.
Синхронный перевод: В ходе эксперимента спикеры продемонстрировали функцию двустороннего перевода речи в реальном времени, когда один участник говорил на хинди, другой на фарси, а система мгновенно выводила английские субтитры на экраны очков.

Чтобы сделать подобные гаджеты стильными аксессуарами, Google объявила о стратегическом партнерстве с известными брендами оптики Gentle Monster и Warby Parker, которые первыми создадут коммерческие очки на базе Android XR.

🔬 Научный прорыв DeepMind и технологии пространственного присутствия 7:57

Глава подразделения Google DeepMind Демис Хассабис в своем выступлении подчеркнул, что ключевой миссией его карьеры остается использование искусственного интеллекта для ускорения научного прогресса. За прошедший год исследовательская лаборатория совершила прорывы в фундаментальных дисциплинах, представив целую экосистему специализированных моделей:

Alpha Proof: ИИ-система, способная решать сложнейшие математические задачи уровня Международной математической олимпиады (IMO) на уровне серебряного медалиста.
Co-scientist: ИИ-ассистент, помогающий ученым формулировать и верифицировать новые научные гипотезы.
Alpha Evolve: Модель, способная самостоятельно генерировать новые научные знания и оптимизировать процессы обучения других нейросетей.
AMIE: Исследовательский инструмент для поддержки клиницистов в процессе постановки точных медицинских диагнозов.
AlphaFold 3: Революционная модель, предсказывающая структуру и взаимодействие всех типов биологических молекул, которую сегодня используют более 2,5 миллиона исследователей по всему миру. На ее базе Isomorphic Labs развивает принципиально новые подходы к компьютерной разработке лекарств для борьбы с глобальными заболеваниями.

Параллельно Google анонсировала эволюцию своего знаменитого проекта трехмерных видеозвонков Project Starline. Новая платформа получила название Google Beam и позиционируется как ИИ-первая система видеокоммуникаций. С помощью массива из шести камер и специализированных нейросетей Beam трансформирует обычный плоский 2D-видеопоток в реалистичную 3D-модель, транслируемую на световом дисплее с частотой 60 кадров в секунду и точностью трекинга головы до миллиметра. Первые коммерческие устройства Google Beam будут выпущены совместно с компанией HP в конце текущего года.

🌍 ИИ на службе общества: Спутники Firesat и спасательные дроны 28:14

Завершая презентацию, руководство Google выделило ряд проектов, направленных на решение глобальных гуманитарных и экологических проблем современности. Одним из важнейших направлений стала борьба с лесными пожарами, которые регулярно опустошают территории Калифорнии и других регионов мира.

Совместно с международными партнерами Google развертывает проект Firesat — специализированную спутниковую группировку, использующую мультиспектральные снимки и алгоритмы искусственного интеллекта для обнаружения очагов возгорания в режиме реального времени. Уникальное разрешение камер Firesat позволяет фиксировать термоточки размером всего в 270 квадратных футов (около площади стандартного гаража на одну машину). По словам разработчиков, после полного развертывания сети частота обновления спутниковых данных сократится с 12 часов до рекордных 20 минут, что позволит экстренным службам реагировать мгновенно.

Кроме того, ИИ-технологии доказали свою эффективность в ликвидации последствий стихийных бедствий. Во время разрушительного урагана «Хелен» дочерняя компания Wing в партнерстве с ритейлером Walmart и Красным Крестом организовала автономную доставку гуманитарной помощи. Дроны под управлением искусственного интеллекта оперативно доставляли продукты питания и медикаменты в приюты организации YMCA в Северной Каролине, ориентируясь на запросы людей в режиме реального времени.

Как подытожил спикер презентации, подобные технологии доказывают, что масштабная автоматизация и автономный транспорт (включая беспилотные автомобили Waymo) станут неотъемлемой реальностью человечества не через decades, а уже в ближайшие несколько лет.