Google представила модель Gemini 2.0 и автономных ИИ-агентов

Wes Roth 62,6 тыс. 32 мин 6 мин 12.12.2024
Главное

Компания Google представила масштабное обновление своей экосистемы искусственного интеллекта во главе с новой моделью Gemini 2.0. Известный технологический блогер и аналитик Уэс Рот (Wes Roth) подробно разобрал ключевые анонсы, включая продвинутого голосового ассистента Astra, автономного браузерного агента Project Mariner и новые возможности пространственного мышления моделей. По мнению автора, эти релизы наглядно демонстрируют наступление эры, когда ИИ превращается в полноценную операционную систему, меняющую повседневную жизнь человека.

🎙️ Проект Astra: универсальный голосовой помощник и повседневный компаньон 0:00

Развитие мультимодальных технологий позволило Google существенно модернизировать проект Astra. Уэс Рот поделился личным опытом использования ранней версии этого ассистента в режиме реального времени. Модель способна мгновенно распознавать и анализировать окружающую обстановку через камеру смартфона. В качестве примера ведущий показал, как Astra безошибочно распознала распечатанный план подготовки к лос-анджелесскому марафону 2025 года, вычленила из него типы тренировок и дала практический совет взять с собой 3–4 энергетических геля для 10-мильной пробежки.

Помимо анализа документов, Astra может выступать в роли интерактивного кулинарного тренера. Ассистент способен вести пользователя по рецепту шаг за шагом, оценивать через камеру точность нарезки продуктов (например, подтвердить, что ингредиенты нарезаны кусками примерно в 1 дюйм) и давать критические замечания.

Среди ключевых особенностей обновленной Astra выделяются следующие возможности:

По мнению Уэса Рота, в будущем подобные ИИ-помощники станут постоянными спутниками людей, функционируя через беспроводные наушники или смарт-очки дополненной реальности. Подобные системы смогут давать подсказки в реальном времени, помогать в навигации и даже генерировать остроумные ответы в диалогах.

🎮 ИИ-ассистенты в гейминге: коучинг без предварительной интеграции 6:43

Одним из самых зрелищных сценариев применения Gemini 2.0 стала демонстрация работы игрового агента. В отличие от классических ботов, этот ИИ не имеет прямого доступа к коду игры или специальной пост-тренировочной интеграции. Он функционирует исключительно за счет обработки видеопотока с экрана, аудиодорожки игрока и оперативного поиска информации в сети.

В рамках демонстрации ИИ-помощник успешно координировал действия игрока в режиме реального времени:

Уэс Рот отметил, что ранее тестировал десктопное приложение ChatGPT со схожими задачами в игре Factorio. По его оценке, решение от OpenAI показало себя эффективно при ответах на вопросы о горячих клавишах, однако уступало разработке Google, поскольку ChatGPT не мог «видеть» игровой стрим напрямую и требовал больше времени (на пару секунд дольше) на извлечение контекста из памяти. Единственным спорным элементом гейминг-демо от Google ведущий назвал встроенный генератор шуток, посчитав юмор ИИ излишним.

🌐 Project Mariner: автономная автоматизация браузерных задач 16:57

Для корпоративного и повседневного использования Google разрабатывает Project Mariner — исследовательский прототип автономного агента, выполненный в виде экспериментального расширения для браузера Chrome. Его ключевое отличие от простых парсеров заключается в способности имитировать поведение человека: кликать по ссылкам, скроллить страницы, читать информацию и выстраивать цепочки рассуждений.

В первой демонстрации агент автоматизировал рутинную рабочую задачу:

  1. ИИ считал список названий компаний, занимающихся скалолазанием, из таблицы Google Sheets.
  2. Автономно ввел поисковый запрос по первой компании (Benchmark climbing) в Google.
  3. Перешел на официальный сайт организации, нашел контактный email, зафиксировал его в памяти и перешел к следующей строке таблицы.

Второй сценарий задействовал мультимодальное понимание. Пользователь поручил агенту найти самого известного художника-постимпрессиониста, отыскать его яркую картину на платформе Google Arts & Culture, а затем добавить набор подходящих красок в корзину на Etsy. Прототип самостоятельно идентифицировал Ван Гога, зашел на веб-ресурс, проскроллил биографию до галереи работ, выбрал картину «Ирисы», после чего перешел на Etsy, вбил в поиск «яркие краски» и добавил в корзину акварель, ориентируясь на баланс цены и визуальной привлекательности.

Разработчики подчеркивают, что Project Mariner на текущем этапе работает строго в активной вкладке пользователя и не совершает фоновых действий без контроля. Перед финальной оплатой на Etsy агент приостановил работу и запросил подтверждение человека, что отражает концепцию безопасного ИИ «human-in-the-loop» (человек в контуре управления).

🎨 Родная мультимодальность Gemini 2.0 и генерация изображений в рамках диалога 22:14

Важным технологическим прорывом Gemini 2.0 Уэс Рот считает переход на полностью нативную мультимодальность. В отличие от существующих систем, где для распознавания текста, генерации картинок и анализа аудио используются разные состыкованные модели, Gemini 2.0 обрабатывает и выдает текстовые и графические токены в рамках единого унифицированного процесса.

Уэс Рот процитировал известного ИИ-исследователя Андрея Карпати (Andrej Karpathy), который утверждает, что искусственный интеллект вскоре сам станет операционной системой. Пользователям больше не придется вручную кликать мышью или использовать сложные интерфейсы — достаточно будет дать сквозную команду.

Эксперименты в Google AI Studio с моделью Gemini 2.0 Flash продемонстрировали следующие возможности сквозного редактирования:

🗺️ Мультимодальный Live API и 3D-пространственное мышление 27:14

В заключительной части обзора была продемонстрирована техническая сторона взаимодействия с Gemini 2.0 через Multimodal Live API в интерфейсе AI Studio. Разработчик Google по имени Тина показала приложение Gen Weather, использующее интеграцию с Google Maps API и Open Weather API. Благодаря сверхнизкой задержке (low latency) стримингового API, модель способна мгновенно озвучивать реальные сводки погоды, полностью оставаясь в рамках заданного персонажа — например, циркового зазывалы или калифорнийского серфера.

Параллельно Google развивает функцию пространственного понимания (Spatial Understanding). Экспериментальная модель Gemini 2.0 Flash способна не просто описывать фотографии, а с высокой скоростью выдавать точные координаты объектов.

В ходе тестов пространственного мышления были зафиксированы следующие результаты:

Главным новшеством разработчики называют появление предварительного 3D-пространственного понимания. С помощью специального Colab-блокнота разработчики могут загрузить обычную плоскую фотографию комнаты, а Gemini 2.0 вычислит расположение мебели в трехмерном пространстве и воссоздаст интерактивный план помещения с видом сверху, фактически превращая снимок в контролируемую 3D-модель.

💬 Цитаты

«Google выходит из ниоткуда и выбрасывает целую кучу анонсов различных проектов, некоторые из которых абсолютно сносят крышу.»

Уэс Рот 0:00

«ИИ станет операционной системой очень скоро. Вы больше не будете кликать на вещи или вводить текст.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Dead cat (Мертвый кот)
Пушистая ветрозащитная насадка на микрофон, используемая для снижения шума ветра при записи аудио на открытом воздухе.
Игровая мета
Наиболее эффективная и популярная среди игрового сообщества стратегия, комбинация персонажей или тактика, обеспечивающая наивысший шанс на победу в текущей версии игры.
Spatial Understanding (Пространственное понимание)
Способность нейросети определять точные координаты, границы, тени и взаиморасположение объектов на изображении в 2D или 3D пространстве.
Human-in-the-loop (Человек в контуре)
Концепция разработки ИИ-систем, требующая обязательного контроля, подтверждения или вмешательства человека на критических этапах работы автономного агента.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Google Gemini 2.0 Project Astra Project Mariner