Google о будущем мобильного ИИ: «Процессоры уже не проблема, проблема в скорости памяти»

В современном мире искусственный интеллект больше не ограничен мощными облачными серверами. На недавней презентации Google специалисты Сачин Котвани и Аарон Уолш представили обновленный стек технологий Google AI Edge, который позволяет запускать современные большие языковые модели (LLM), такие как Gemma, непосредственно на мобильных устройствах и IoT-датчиках без подключения к интернету.

🚀 Революция локального ИИ: От компьютерного зрения к Gemma 0:01

По словам Сачина Котвани, группового менеджера по продуктам Google AI, 2026 год станет особым временем для локального ИИ . Хотя ИИ на устройствах существует уже много лет, долгое время он ограничивался простым компьютерным зрением. Еще пару лет назад запуск LLM на смартфонах был возможен, но их полезность была крайне низкой по сравнению с облачными аналогами .

Ситуация кардинально изменилась с выходом моделей Gemma 2B и 4B. Котвани утверждает, что современная модель Gemma 4B превосходит по большинству метрик гораздо более крупную модель Gemma 70B предыдущего года . В ходе живой демонстрации на Pixel 10 (экспериментальном устройстве) модель Gemma мгновенно и без доступа к сети описала фотографию спикера, отметив даже «дружелюбное выражение лица» и в шутку назвав Сачина «мужчиной средних лет» .

Котвани выделил четыре ключевых преимущества переноса ИИ из облака на устройства:

Экономия: Снижение затрат на API облачных сервисов .
Автономность: Возможность работы в самолете или местах с плохой связью .
Скорость: Отсутствие задержек (latency), связанных с передачей данных на сервер .
Конфиденциальность: Строгие требования к безопасности данных, которые не покидают устройство .

🛠️ Аппаратное ускорение и экосистема Google AI Edge 2:51

Прогресс локального ИИ обусловлен не только оптимизацией алгоритмов, но и качественным скачком в «железе». По данным Google, современные CPU на Android с интеграцией ARM SVE и XNNPack позволяют моделям вроде Gemma работать в 6 раз быстрее .

Основные изменения в аппаратной поддержке:

GPU: Перестали быть только инструментами для гейминга, превратившись в высокопроизводительные движки с тензорными ядрами для ИИ .
NPU (нейропроцессоры): Специализированные чипы теперь обеспечивают скорость генерации более 200 токенов в секунду при минимальном энергопотреблении .
Узкое место: Котвани отметил, что сейчас производительность ограничивается не мощностью процессоров, а скоростью передачи данных из памяти в чип .

На сегодняшний день стек Google AI Edge используется в более чем 250 000 приложений на Android, охватывая 3,8 миллиарда устройств . Разработчикам представили новые бэкенды для NPU: Google Tensor и Intel, а также анонсировали поддержку чипсетов Broadcom, Raspberry Pi и Exynos .

🎮 Сценарий 1: Динамические персонажи в играх (Кейс Меган) 6:22

Аарон Уолш представил три типа разработчиков, для которых Google подготовил разные инструменты. Первый тип — «Меган», независимый разработчик RPG-игр для мобильных устройств. Она хочет создать NPC (неигровых персонажей), с которыми можно вести живой диалог .

Облачные модели не подходят Меган из-за огромных затрат на серверы при каждом разговоре игрока с кузнецом и риска обрыва связи в метро или самолете . Решение для таких задач — LightRT LLM.

Ключевые особенности LightRT LLM для разработчиков:

Интерфейс: Работает по принципу «текст на входе — текст на выходе» .
Оптимизация: Использует специализированные ядра для операций LLM, таких как KV-кэширование .
Кроссплатформенность: Поддерживает Android, iOS, Windows, Linux и macOS .
Модели: Оптимизированные версии Gemma доступны на Hugging Face в формате LightRT .

Уолш показал, как с помощью ИИ-агента (Google Anti-gravity) и исходного кода приложения Gallery можно за считанные минуты собрать чат-приложение, работающее на смартфоне в режиме полета .

📱 Опыт KakaoTalk: Оптимизация на реальных данных 16:39

В качестве примера из реального сектора Сачин Котвани привел мессенджер KakaoTalk. Команда внедрила модель Cananana на 1,3 миллиарда параметров в свое Android-приложение .

Технические достижения KakaoTalk:

Сжатие: Удалось сократить объем памяти, занимаемый моделью, более чем на 600 МБ благодаря продвинутому маппингу памяти и оптимизации KV-кэша .
Плавность: Использование приоритетных настроек OpenCL позволило ИИ работать в фоновом режиме, не вызывая «лагов» интерфейса для пользователя .
Гибкость: Приложение автоматически выбирает между GPU и CPU в зависимости от чипсета конкретного смартфона .

🧩 Сценарий 2: Готовые решения с MediaPipe (Кейс Роба) 18:13

Для разработчиков типа «Роба», которым нужны быстрые функции «из коробки», Google предлагает MediaPipe Tasks. Это набор готовых API для распознавания жестов, поз, объектов и аудио .

В качестве примера была показана функция для селфи-приложения: камера должна сработать ровно в тот момент, когда человек подпрыгивает. Вместо обучения модели с нуля, Роб просто берет Pose Landmarker из MediaPipe. Приложение отслеживает координаты плеч и делает снимок в пиковой точке прыжка . Эффективность подхода продемонстрировали на игре Dino Jump, где игрок управляет прыжками динозавра, физически прыгая перед камерой .

🦜 Сценарий 3: Глубокая кастомизация и IoT (Кейс Криса) 22:17

Третий тип разработчика — «Крис», эксперт по ИИ, работающий с классическими архитектурами (PyTorch, Jax, Keras) и специфическим оборудованием. Его задача — мониторинг редких птиц в джунглях с помощью датчиков на солнечных батареях .

Поскольку устройство должно работать месяцами в лесу, использование LLM невозможно из-за высокого энергопотребления. Крис использует LightRT CLI для конвертации своей модели классификации звуков из PyTorch в формат .tflite .

Преимущества подхода для IoT:

Ahead-of-time (AOT) компиляция: Позволяет максимально оптимизировать модель под конкретный NPU .
Энергоэффективность: Специализированное API для скомпилированных моделей (Compiled Model API) позволяет выполнять вычисления, потребляя лишь малую часть энергии по сравнению со стандартными методами .

В завершение Уолш продемонстрировал работу приложения для автоматического распознавания речи (ASR) на базе модели Parakeet. Система в реальном времени транскрибировала его речь на сцене без подключения к сети, подчеркнув, что подобные инструменты теперь доступны любому разработчику через Hugging Face и сообщество LightRT .