Google запускает Gemini 1.5 Flash и открывает бета-тест Project IDX

На 16-й ежегодной конференции Google I/O команда Google for Developers представила масштабный пакет обновлений своей ИИ-экосистемы, нацеленный на предоставление доступа к генеративному искусственному интеллекту каждому разработчику на планете. В рамках пятиминутного технологического доклада были анонсированы новые инструменты, расширение доступности флагманских моделей и запуск специализированных фреймворков. Главный акцент сделан на поиске баланса между качеством, стоимостью и скоростью вычислений при интеграции нейросетей в реальные продукты.

🌐 Глобальная доступность Gemini и баланс вычислений 0:04

Google продолжает стратегическое развертывание инструментов на базе генеративного ИИ для глобального сообщества разработчиков, насчитывающего миллионы специалистов. С целью упрощения интеграции ИИ в приложения через стандартные API-интерфейсы, модели семейства Gemini были внедрены в ключевые среды разработки и сервисы:

Android Studio
Chrome Dev Tools
Project IDX
Colab
VS Code
IntelliJ
Firebase

Поиск оптимального ИИ-решения требует от создателей софта балансирования трех критических факторов: качества, стоимости и скорости. В качестве ответа на этот запрос компания открыла доступ к модели Gemini 1.5 Flash. Начать работу с ней можно через Gemini API и платформу Google AI Studio, география присутствия которой расширилась до более чем 200 стран и территорий.

📱 Локальный ИИ и мультимодальные возможности в Android 1:12

Для задач, выполняемых непосредственно на клиентских устройствах, Google предлагает использовать Gemini Nano — наиболее эффективную модель компании для on-device вычислений. Ее запуск на мобильных устройствах обеспечивает минимальную задержку (low latency) при обработке запросов и гарантирует конфиденциальность данных, поскольку информация не покидает девайс. Одним из примеров применения технологии является генерация умных ответов в мессенджерах.

В сфере мобильной разработки были анонсированы следующие важные шаги:

Внедрение первоклассного инструментария и библиотечной поддержки для Kotlin Multiplatform на Android.
Интеграция большой контекстной цепочки Gemini 1.5 Pro для разработчиков под Android, которая станет доступна позднее в текущем году.

Мультимодальные возможности Gemini 1.5 Pro позволяют обрабатывать сложные входные данные высокого качества. В ходе демонстрации разработчики загрузили в модель изображение чернового интерфейса (wireframe) приложения и отправили текстовый промт с требованием создать экран с помощью Jetpack Compose, максимально приближенный к картинке, используя Material 3 и импортируя необходимые библиотеки. Модель успешно сгенерировала готовый код для Main Activity, который был мгновенно проверен в интерактивном окне предварительного просмотра (composed preview).

Кроме того, начиная с версии Chrome 126, модель Gemini Nano будет встроена непосредственно в десктопный клиент браузера. Это позволит реализовать локальную функцию «Help me write», помогающую пользователям создавать короткие тексты — от отзывов на продукты до постов в социальных сетях и форм обратной связи.

🛠 Развертывание платформ: Публичная бета Project IDX и Firebase Genkit 2:58

Google стремится оптимизировать процессы сборки, тестирования и развертывания приложений с ИИ на Android, в веб-среде и на других платформах. В рамках этой инициативы облачная среда разработки Project IDX была переведена в стадию публичного бета-тестирования без списков ожидания.

Платформа IDX предлагает несколько вариантов быстрого старта:

Использование более чем 12 предустановленных шаблонов, содержащих базовые файлы и пакеты.
Прямой импорт существующих репозиториев из GitHub со всеми их зависимостями.
Создание проекта с чистого листа.

Параллельно развивается экосистема Firebase. Для ускорения разработки кроссплатформенных ИИ-функций представлен новый фреймворк интеграции — Firebase Genkit. На текущий момент Genkit находится в режиме беты для Node.js, а поддержка языка Go ожидается в ближайшее время. Фреймворк предоставляет унифицированный API для работы с различными большими языковыми моделями (LLM). По утверждению создателей, благодаря Genkit тестирование новой модели сводится к изменению всего одного аргумента в коде.

🔓 Эволюция открытых моделей Gemma 2 4:03

Для сценариев, требующих повышенной гибкости, глубокой настройки (fine-tuning) и заземления (grounding) моделей под специфические бизнес-кейсы, Google развивает семейство открытых моделей Gemma.

В этой линейке произошли существенные изменения:

Релиз CodeGemma, специализированной модели для поддержки задач программирования на различных языках.
Выпуск RecurrentGemma, которая использует архитектуру рекуррентных нейронных сетей и локальную среду для повышения эффективности памяти и ускорения инференса.
Добавление PaliGemma — мультимодальной модели для перевода изображений в текст, доступной в режиме предварительного просмотра.

Главным анонсом в данном блоке стало превью нового поколения моделей — Gemma 2. По заявлениям представителей Google, данное решение обладает совершенно новой архитектурой, которая обеспечивает выдающуюся производительность (stellar performance) и при этом способна эффективно функционировать на одном тензорном процессоре TPU v5e.