Google I/O: От текстового промпта до готового Android-приложения за 5 минут

На конференции Google I/O представители компании представили масштабное обновление экосистемы искусственного интеллекта. Пейдж, руководитель отдела по связям с разработчиками в Google DeepMind, и Амар, отвечающий за продукт и дизайн в AI Studio, продемонстрировали, как нейросети Gemini превращаются из чат-ботов в полноценные инструменты разработки приложений, управления роботами и генерации миров.

🚀 Новое семейство моделей Gemini 3.5 1:06

Темпы выпуска новых моделей в 2024 году стали, по выражению спикеров, «беспощадными» . Основной акцент Google делает на расширении линейки Gemini 3.5, где каждая модель оптимизирована под конкретные задачи:

Gemini 3.5 Pro: остается флагманом для решения самых сложных интеллектуальных проблем .
Gemini 3.5 Flash: сбалансированная модель по скорости и стоимости, установленная по умолчанию в AI Studio .
Gemini 3.1 Flash-Lite: наиболее оптимизированное решение для сценариев с крайне низкой задержкой и минимальными затратами .

Амар отметил, что мобильное приложение AI Studio, которое выйдет в ближайшие недели, было в значительной степени создано с помощью модели 3.5 Flash . Продукты семейства Gemini уже используют такие гиганты, как Databricks, GitHub, Harvey и Warp . Ключевым преимуществом моделей является их нативная мультимодальность: они не просто понимают текст, изображения, аудио, видео и код, но и способны выдавать контент в различных форматах .

🧪 Playground: Анализ видео за копейки 5:51

В обновленном интерфейсе Google AI Studio Playground разработчики могут экспериментировать с параметрами моделей и сразу получать готовые фрагменты кода для своих приложений . В качестве примера Пейдж продемонстрировала анализ пятиминутного видео с динозаврами:

Модель Gemini 3.1 Flash-Lite обработала видео объемом около 31 000 токенов .
Система составила таблицу с именами динозавров, временными метками их появления и интересными фактами .
Стоимость этой сложной операции составила всего около полутора центов .

Особое внимание уделили функции «Get Code», которая позволяет в один клик экспортировать логику промпта в Python, TypeScript или другие языки, включая настройки инструментов (Tool Calling) и конфигурации безопасности .

🎙️ Gemini Live: Мультимодальное общение в реальном времени 8:06

Одной из самых впечатляющих функций стала Gemini Live, позволяющая вести с моделью живой диалог . Система способна «видеть» экран пользователя и обсуждать его содержимое.

В ходе демо Gemini безошибочно распознала таблицу динозавров на экране и по просьбе Пейдж мгновенно перешла с английского на китайский язык, сохранив контекст обсуждения . Модель поддерживает более 140 языков и может быть настроена через системные инструкции на использование конкретного диалекта, например, бразильского португальского .

Для повышения точности ответов Google интегрировала функцию «Grounding with Google Search» . Это позволяет Gemini предоставлять актуальную информацию (например, прогноз погоды в Маунтин-Вью) со ссылками на источники данных .

🏗️ Build Mode: Создание приложений «силой мысли» 11:58

Режим Build в AI Studio представляет собой среду «всё включено», где для создания работающего приложения достаточно текстового описания . Амар продемонстрировал создание нативного Android-приложения для складного телефона:

Промпт: Разработка виртуального пианино, где на верхней половине экрана (складного устройства) отображается туториал, а на нижней — клавиши .
Дизайн: Система автоматически сгенерировала несколько тем оформления на выбор, включая элегантную темную тему с неоновым свечением .
Код: Приложение генерируется на языке Kotlin .
Развертывание: Прямо из браузера приложение было установлено на физическое складное устройство по USB за несколько секунд .

По словам Амара, скоро разработчикам станет доступна прямая дистрибуция созданных таким образом приложений в Play Store . Кроме того, AI Studio теперь поддерживает интеграцию с Google Workspace, позволяя создавать инструменты для работы с Gmail и календарем через простые промпты . В качестве шуточного примера была показана «Календарная рулетка» — приложение, которое случайным образом удаляет одно из совещаний в расписании пользователя .

🔓 Открытые модели Gemma и инфраструктура 20:35

Помимо закрытых Frontier-моделей, Google активно развивает семейство открытых моделей Gemma. Новая Gemma 4 уже доступна для тестирования в AI Studio . Основные характеристики:

Контекстное окно объемом 256 000 токенов .
Способность работать локально на ноутбуках (Gemma 4) и даже на мобильных устройствах (Gemma 2 на Pixel) .
Широкая поддержка сообществом на Hugging Face и Kaggle .

Для обучения и запуска этих моделей Google предлагает полный стек программного обеспечения для своих TPU (Tensor Processing Units). Команда DeepMind эксклюзивно использует библиотеку JAX для создания всей своей инфраструктуры . Также были представлены инструменты MaxText для работы с текстом и Tunix для пост-обучения с использованием обучения с подкреплением (RL) .

В вопросах безопасности Google продвигает технологию SynthID для маркировки контента, созданного ИИ, в партнерстве с другими игроками индустрии .

🤖 Будущее: Робототехника и физические миры 25:14

Будущее ИИ в понимании Google не ограничивается экранами. Модели Gemini уже интегрируются в робототехнику через Gemini Robotics 1.6 .

В качестве примера был упомянут проект Stanford Pupper — робопёс, детали которого напечатаны на 3D-принтере, а управление осуществляется через Raspberry Pi . Благодаря Gemini Live API такой робот может понимать команды на естественном языке, например, «следуй за мной» или «принеси мяч», без специального предварительного обучения .

Другим прорывным направлением стала модель Genie 3 — семейство «моделей мира», которые понимают физику реальности . Она способна генерировать интерактивные видео на основе промптов:

Пример с бумажным самолетиком, летящим над водопадом, продемонстрировал реалистичную динамику воды, брызги и корректное отражение света .
Пользователь может буквально «управлять» персонажем в сгенерированном мире с помощью клавиш со стрелками .

Амар и Пейдж подчеркнули, что мы входим в эру «AI-native» инструментов, где грань между идеей и готовым продуктом стирается . По мнению Амара, разработчикам больше не нужно «просить разрешения» у технологий — достаточно просто описать свою мечту в окне промпта .