На конференции Google для разработчиков команда Google DeepMind представила Gemma 4 — новое поколение семейства открытых языковых моделей, спроектированных для максимальной эффективности на локальных устройствах. В центре внимания — переход на открытую лицензию Apache 2.0, значительное расширение контекстного окна и демонстрация работы ИИ в реальных условиях: от управления роботами до помощи слабовидящим бегунам.
🚀 Философия Gemma 4: Интеллект на каждый ватт 0:03
Оливье, продуктовый лидер команды Gemma, подчеркнул, что проект начался в начале 2024 года с простой идеи: создать модель, которую можно запустить где угодно и полностью настроить под свои нужды . Главным приоритетом разработчиков стала эффективность — достижение максимального уровня «интеллекта на ватт» потребляемой мощности. По мнению команды, открытые веса моделей (open weights) позволяют разработчикам гибко проводить дообучение (fine-tuning) под специфические задачи .
В семейство Gemma 4 вошли четыре основных размера моделей:
- 2B (2 миллиарда параметров): предназначена для интернета вещей (IoT) и периферийных вычислений.
- 4B (4 миллиарда параметров): оптимизирована для работы на мощных смартфонах и ноутбуках среднего сегмента.
- 26B (26 миллиардов параметров): использует архитектуру Mixture of Experts (MoE) для обеспечения высокой скорости и низкой задержки.
- 31B (31 миллиард параметров): классическая «плотная» (dense) модель, ориентированная на максимальное качество и удобство тонкой настройки .
Одним из самых значимых изменений стал переход с кастомной лицензии Gemma на популярную лицензию Apache 2.0. Оливье отметил, что это даст разработчикам полный контроль при развертывании моделей в продакшене, что было встречено аудиторией с особым энтузиазмом .
🧠 Технологический скачок и бенчмарки 5:43
Технический прогресс семейства Gemma демонстрирует впечатляющую динамику. Оливье привел данные, согласно которым новая модель размером всего 2B параметров в этом цикле разработки сравнялась или даже превзошла по возможностям модель 27B предыдущего поколения . «Это дает мне огромную надежду на будущее. Возможно, в следующем году мы сможем уместить возможности модели 31B в ваш карман для полностью локальной работы на телефоне», — поделился прогнозом спикер .
Ключевые технические обновления Gemma 4:
- Контекстное окно: увеличено с 32 000 до 128 000 токенов для малых моделей и до 256 000 токенов для моделей 26B и 31B .
- Мультимодальность: глубокая поддержка понимания изображений (без фиксированного соотношения сторон), аудио и видео .
- Агентурные способности: встроенная поддержка рассуждений (reasoning) и вызова функций (function calling) прямо «из коробки» .
- Мультиязычность: модели показывают высокие результаты в тестах на европейских языках, а также в японском, корейском и языках Юго-Восточной Азии .
Для повышения скорости работы была представлена технология MTP Drafter, позволяющая использовать спекулятивное декодирование. По данным Google, это обеспечивает ускорение вывода до 3 раз .
☁️ Развертывание в облаке: от одного клика до полного контроля 9:03
Гас, продуктовый менеджер Gemma, подробно разобрал варианты использования моделей в облачной инфраструктуре Google Cloud. Он выделил три основных сценария, различающихся по сложности и уровню контроля:
- Gemini Enterprise Agent Platform (ранее Vertex AI): решение «среднего уровня». Позволяет развернуть модель в один клик, выбрав нужный графический процессор (например, H100 или RTX 6000). Также доступна модель 26B как сервис (Model-as-a-Service) с оплатой за токены .
- Google Kubernetes Engine (GKE): вариант для продвинутых пользователей. Дает полный доступ к виртуальным машинам и всем настройкам конфигурации для максимальной оптимизации под конкретные задачи .
- Cloud Run: самый простой способ. Позволяет развернуть Gemma всего парой строк кода. Система автоматически масштабируется до нуля, если запросов нет, и может мгновенно развернуться до 100 GPU при пиковых нагрузках .
🛠️ Агенты в действии: от бизнес-аналитики до «вайб-кодинга» 15:44
Одной из самых ярких демонстраций стала работа модели Gemma 31B над задачей оптимизации выручки системы городского проката велосипедов. Модель получила доступ к базе данных BigQuery через сервер MCP (Model Context Protocol).
- Автономия: модель самостоятельно изучила структуру таблиц, составила план анализа и начала выполнять SQL-запросы .
- Самокоррекция: когда в коде возникла ошибка из-за опечатки в названии таблицы, Gemma сама идентифицировала проблему и исправила запрос без участия человека .
- Результат: через 3 минуты работы агент выдал список из 10 оптимальных локаций для установки новых велопарковок .
Ян Валентайн продемонстрировал возможности «вайб-кодинга» (vibe coding) на примере игры AI Venture. В этом ретро-квесте игрок может попросить персонажа-курицу написать веб-приложение. Модель Gemma 4 на лету генерирует HTML, CSS и JavaScript, которые тут же отрисовываются в игровом iframe . Также он показал параллельную работу 15 агентов на одном ноутбуке, которые одновременно генерировали векторную графику и код на разных языках программирования (Rust, JS, Python) .
📱 Локальный ИИ: мобильные устройства и робототехника 27:38
Команда уделила много времени работе ИИ без доступа к интернету. Ян показал работу приложения Google AI Edge Gallery на смартфоне Pixel, где Gemma 4 решала задачи в офлайн-режиме:
- Распознавание книг на столе и выдача их списка в формате JSON-схемы .
- Анализ аудиозаметок с автоматическим внесением данных в приложение для отслеживания настроения .
- Голосовой ассистент с задержкой менее секунды, способный поддерживать естественный диалог и позволять перебивать себя .
В области робототехники была представлена модель Richie Mini (совместная разработка с Hugging Face и Pollen Robotics) — социальный робот, который может видеть шахматную доску, объяснять правила игры и даже расстраиваться из-за проигрыша . Еще более миниатюрный пример — «умные утки» на базе Raspberry Pi 5 и Jetson Orin Nano, которые используют Gemma 4 для общения с окружающими .
Особое внимание уделили прототипу Gemma running agent. Это система для слабовидящих бегунов, которая через умные очки анализирует окружение и дает голосовые подсказки в реальном времени: «держись этой дорожки», «впереди поворот налево», «слева спортивный инвентарь» . По мнению Оливье, именно такое использование ИИ для повышения доступности среды воплощает идею «ИИ во благо» .
🌐 «Gemmaverse»: Экосистема и сообщество 43:23
В завершение Гас рассказал о масштабах экосистемы Gemma. На текущий момент зафиксировано более 500 миллионов загрузок моделей семейства . Сообщество создало более 100 000 вариантов Gemma, адаптированных под специфические нужды.
Примеры успешных модификаций:
- Med-Gemini: версия, специально дообученная для работы в сфере здравоохранения и анализа рентгеновских снимков .
- Cell to Sentence: модель для поиска новых методов лечения рака, результаты которой уже проходят тестирование .
- Локальные адаптации: проекты по улучшению поддержки языков суахили (Crane AI Labs) и португальского, а также использование моделей правительством Украины для ускорения бюрократических процессов .
Представители Google призвали разработчиков продолжать эксперименты, подчеркнув, что возможности Gemma теперь простираются от крошечных плат Coral для носимых устройств до мощных облачных кластеров .