На конференции Google I/O представители компании представили масштабное обновление экосистемы искусственного интеллекта. Пейдж, руководитель отдела по связям с разработчиками в Google DeepMind, и Амар, отвечающий за продукт и дизайн в AI Studio, продемонстрировали, как нейросети Gemini превращаются из чат-ботов в полноценные инструменты разработки приложений, управления роботами и генерации миров.
🚀 Новое семейство моделей Gemini 3.5 1:06
Темпы выпуска новых моделей в 2024 году стали, по выражению спикеров, «беспощадными» . Основной акцент Google делает на расширении линейки Gemini 3.5, где каждая модель оптимизирована под конкретные задачи:
- Gemini 3.5 Pro: остается флагманом для решения самых сложных интеллектуальных проблем .
- Gemini 3.5 Flash: сбалансированная модель по скорости и стоимости, установленная по умолчанию в AI Studio .
- Gemini 3.1 Flash-Lite: наиболее оптимизированное решение для сценариев с крайне низкой задержкой и минимальными затратами .
Амар отметил, что мобильное приложение AI Studio, которое выйдет в ближайшие недели, было в значительной степени создано с помощью модели 3.5 Flash . Продукты семейства Gemini уже используют такие гиганты, как Databricks, GitHub, Harvey и Warp . Ключевым преимуществом моделей является их нативная мультимодальность: они не просто понимают текст, изображения, аудио, видео и код, но и способны выдавать контент в различных форматах .
🧪 Playground: Анализ видео за копейки 5:51
В обновленном интерфейсе Google AI Studio Playground разработчики могут экспериментировать с параметрами моделей и сразу получать готовые фрагменты кода для своих приложений . В качестве примера Пейдж продемонстрировала анализ пятиминутного видео с динозаврами:
- Модель Gemini 3.1 Flash-Lite обработала видео объемом около 31 000 токенов .
- Система составила таблицу с именами динозавров, временными метками их появления и интересными фактами .
- Стоимость этой сложной операции составила всего около полутора центов .
Особое внимание уделили функции «Get Code», которая позволяет в один клик экспортировать логику промпта в Python, TypeScript или другие языки, включая настройки инструментов (Tool Calling) и конфигурации безопасности .
🎙️ Gemini Live: Мультимодальное общение в реальном времени 8:06
Одной из самых впечатляющих функций стала Gemini Live, позволяющая вести с моделью живой диалог . Система способна «видеть» экран пользователя и обсуждать его содержимое.
В ходе демо Gemini безошибочно распознала таблицу динозавров на экране и по просьбе Пейдж мгновенно перешла с английского на китайский язык, сохранив контекст обсуждения . Модель поддерживает более 140 языков и может быть настроена через системные инструкции на использование конкретного диалекта, например, бразильского португальского .
Для повышения точности ответов Google интегрировала функцию «Grounding with Google Search» . Это позволяет Gemini предоставлять актуальную информацию (например, прогноз погоды в Маунтин-Вью) со ссылками на источники данных .
🏗️ Build Mode: Создание приложений «силой мысли» 11:58
Режим Build в AI Studio представляет собой среду «всё включено», где для создания работающего приложения достаточно текстового описания . Амар продемонстрировал создание нативного Android-приложения для складного телефона:
- Промпт: Разработка виртуального пианино, где на верхней половине экрана (складного устройства) отображается туториал, а на нижней — клавиши .
- Дизайн: Система автоматически сгенерировала несколько тем оформления на выбор, включая элегантную темную тему с неоновым свечением .
- Код: Приложение генерируется на языке Kotlin .
- Развертывание: Прямо из браузера приложение было установлено на физическое складное устройство по USB за несколько секунд .
По словам Амара, скоро разработчикам станет доступна прямая дистрибуция созданных таким образом приложений в Play Store . Кроме того, AI Studio теперь поддерживает интеграцию с Google Workspace, позволяя создавать инструменты для работы с Gmail и календарем через простые промпты . В качестве шуточного примера была показана «Календарная рулетка» — приложение, которое случайным образом удаляет одно из совещаний в расписании пользователя .
🔓 Открытые модели Gemma и инфраструктура 20:35
Помимо закрытых Frontier-моделей, Google активно развивает семейство открытых моделей Gemma. Новая Gemma 4 уже доступна для тестирования в AI Studio . Основные характеристики:
- Контекстное окно объемом 256 000 токенов .
- Способность работать локально на ноутбуках (Gemma 4) и даже на мобильных устройствах (Gemma 2 на Pixel) .
- Широкая поддержка сообществом на Hugging Face и Kaggle .
Для обучения и запуска этих моделей Google предлагает полный стек программного обеспечения для своих TPU (Tensor Processing Units). Команда DeepMind эксклюзивно использует библиотеку JAX для создания всей своей инфраструктуры . Также были представлены инструменты MaxText для работы с текстом и Tunix для пост-обучения с использованием обучения с подкреплением (RL) .
В вопросах безопасности Google продвигает технологию SynthID для маркировки контента, созданного ИИ, в партнерстве с другими игроками индустрии .
🤖 Будущее: Робототехника и физические миры 25:14
Будущее ИИ в понимании Google не ограничивается экранами. Модели Gemini уже интегрируются в робототехнику через Gemini Robotics 1.6 .
В качестве примера был упомянут проект Stanford Pupper — робопёс, детали которого напечатаны на 3D-принтере, а управление осуществляется через Raspberry Pi . Благодаря Gemini Live API такой робот может понимать команды на естественном языке, например, «следуй за мной» или «принеси мяч», без специального предварительного обучения .
Другим прорывным направлением стала модель Genie 3 — семейство «моделей мира», которые понимают физику реальности . Она способна генерировать интерактивные видео на основе промптов:
- Пример с бумажным самолетиком, летящим над водопадом, продемонстрировал реалистичную динамику воды, брызги и корректное отражение света .
- Пользователь может буквально «управлять» персонажем в сгенерированном мире с помощью клавиш со стрелками .
Амар и Пейдж подчеркнули, что мы входим в эру «AI-native» инструментов, где грань между идеей и готовым продуктом стирается . По мнению Амара, разработчикам больше не нужно «просить разрешения» у технологий — достаточно просто описать свою мечту в окне промпта .