Кришна Шридхар: «В смартфонах уже работает около тысячи ИИ-моделей»

Сфера искусственного интеллекта переживает масштабную трансформацию: центр тяжести вычислительных процессов стремительно смещается из гигантских облачных дата-центров непосредственно на пользовательские девайсы. В рамках ИТ-мероприятия от DeepLearning.AI эксперт Кришна Шридхар подробно рассказал о технологических вызовах и решениях в области On-Device AI. Спикер поделился инсайтами о работе современных чипов и продемонстрировал инструменты автоматизации, которые позволяют запускать сложные нейросети прямо в кармане пользователя.

📱 Смартфон как суперкомпьютер: сколько ИИ скрывается в наших карманах 0:00

Выступление на конференции началось с шутливого обещания спикера отпустить аудиторию на 10 минут раньше положенного времени, если слушатели будут предельно внимательны перед грядущим фуршетом. Кришна Шридхар, посвятивший последние 10 лет разработке локального искусственного интеллекта, предложил залу угадать, сколько ИИ-моделей активируется в телефоне при обычном нажатии на кнопку затвора камеры.

Один из присутствующих предположил, что в процессе участвует около 15 алгоритмов, что оказалось близко к истине. По словам Шридхара, в этот момент параллельно запускается от 20 до 25 независимых ИИ-моделей. Они выполняют колоссальный объем работы — от самого момента захвата кадра до цветокоррекции и улучшения деталей.

С течением времени глубина локальной обработки медиафайлов только возрастает. Спикер привел поразительный факт: в современных смартфонах суммарно во всех установленных приложениях функционирует около 1000 специализированных нейросетей. Большинство пользователей даже не догадываются о масштабах ИИ-процессов, непрерывно происходящих у них в кармане.

Компания Qualcomm уже более 5 лет выступает пионером в концепции On-Device AI. Сегодня целевая экосистема локального ИИ вышла далеко за рамки мобильной индустрии. Мощные процессоры устанавливаются в автомобили, ноутбуки, персональные компьютеры и устройства интернета вещей (IoT). Современная аппаратная база позволяет без труда запускать локально тяжеловесные нейросети объемом вплоть до 60 миллиардов параметров, обрабатывая текст, речь, изображения и видеопотоки в реальном времени.

⚡ Три причины ухода из облака: скорость, приватность и экономика 2:04

У разработчиков часто возникает логичный вопрос: зачем переносить вычисления на конечные устройства, если в облачных сервисах сосредоточены практически безграничные вычислительные ресурсы? Кришна Шридхар выделяет три фундаментальные причины, из-за которых On-Device AI становится безальтернативным решением.

Первой причиной является физическая невозможность использования облака в задачах, требующих мгновенной реакции. Для корректной работы автомобильных систем предотвращения столкновений, алгоритмов распознавания лиц или функций камеры необходим отклик интерфейса без малейших задержек. У системы просто нет времени отправлять запрос на удаленный сервер, дожидаться обработки и скачивать результат обратно. В таких сценариях критический порог задержки составляет не более 20 миллисекунд, что заставляет разворачивать модели строго локально.

Второй важнейший фактор — обеспечение строгой конфиденциальности пользовательских данных. Спикер перефразировал известное крылатое выражение:

«Моя личная версия правила Лас-Вегаса: все, что происходит на устройстве, навсегда остается на самом устройстве».

Локальная обработка гарантирует, что личная информация, фотографии или конфиденциальные документы пользователя никогда не покинут физическую память девайса.

Третья причина кроется в общей экономической эффективности. В мире накоплен гигантский стек простаивающих вычислительных мощностей, находящихся прямо в руках конечных потребителей. Если разработчик приложения сможет задействовать хотя бы часть этого ресурса, он получит колоссальный выигрыш. Использование локального «железа» девайсов обходится создателям программного обеспечения абсолютно бесплатно, что намного выгоднее постоянной аренды облачных серверов.

🛠️ Многоуровневая компиляция: как автоматизировать деплой на «железо» 3:35

Процесс переноса и оптимизации нейросетей на пользовательские устройства долгое время оставался крайне трудоемким. В Qualcomm разработали полностью автоматизированную систему, которая позволяет любому инженеру, программисту или ML-специалисту мгновенно загрузить свою модель и получить детальные ответы на ключевые вопросы. Система за несколько минут рассчитывает, запустится ли сеть на конкретном устройстве, какова будет ее скорость, уложится ли она в бюджет по задержкам и объему памяти.

Платформа поддерживает развертывание архитектур на мобильных гаджетах, автомобильных компьютерах и ПК. Архитектурно решение представляет собой продвинутый многоуровневый компилятор. Он принимает модель, написанную на PyTorch, ONNX, TensorFlow или любом другом популярном фреймворке, и трансформирует ее для работы под конкретную программную среду (runtime).

Внутри современных чипсетов компилятор эффективно распределяет нагрузку между различными вычислительными блоками. На кристалле процессора сегодня соседствуют:

Центральные процессоры (CPU);
Интегрированные графические ускорители (GPU);
Специализированные нейропроцессоры (NPU), заточенные под матричное умножение и операции свертки.

Раньше инженерам приходилось вручную писать низкоуровневый код под каждый отдельный блок чипа. Теперь весь этот сложнейший процесс автоматизирован до нажатия одной кнопки.

🌐 Облачная ферма устройств: запуск нейросетей без лишних проводов 5:25

Разработчику достаточно загрузить модель и указать целевой тип устройства, а система выполнит всю промежуточную работу самостоятельно. Qualcomm предоставляет клиентам удаленный доступ к полноценной тестовой ферме, содержащей огромное количество модификаций реального оборудования (SKU). Например, автопроизводители могут удаленно тестировать и итерировать свои алгоритмы на специализированных автомобильных чипах, не закупая физические стенды.

Процесс выглядит как программирование в облачной среде, объединяющей smartphones, ПК и IoT-компоненты. Вся разработка и калибровка происходят непосредственно в привычной для ML-инженеров среде Python. Спикер напомнил, насколько мучительной бывает работа с физическим «железом» в классическом подходе: необходимость найти редкий девайс, подключить его проводами, установить операционную систему, прошить нужные драйверы, настроить доступ по SSH — и все это ради того, чтобы просто проверить, запустится ли на нем модель.

Платформа полностью избавила индустрию от этой рутины. Сегодня ею бесплатно пользуются более 1500 компаний по всему миру. Спикер выразил надежду, что инструмент останется бесплатным навсегда, так как цель Qualcomm — сделать свою кремниевую платформу максимально доступной. За последний год компания создала глобальную экосистему, оперативно переносящую топовые облачные большие языковые модели (LLM) на конечные устройства. Разработчикам уже доступны оптимизированные локальные версии моделей от Mistral, Meta (Llama) и Microsoft. Весь цикл обучения можно провести в облаке, а затем через API мгновенно экспортировать готовую к деплою on-device модель.

💻 Живая демонстрация: от Jupyter Notebook до Snapdragon 8 Elite за секунды 8:30

В ходе практической демонстрации Кришна Шридхар запустил интерактивный ноутбук Jupyter, выбрав для наглядности легковесную нейросеть MobileNet. Первым шагом стала установка проприетарного Python-пакета и инициализация библиотеки PyTorch. Процесс подготовки включает этап трассировки (tracing), когда система фиксирует точный граф вычислений запущенной модели. Полученный граф отправляется на облачные сервера компиляции Qualcomm.

Во время настройки токена авторизации API произошла небольшая заминка из-за медленного интернета на сцене, что вызвало оживление в зале. Спикер в шутку попросил зрителей не запоминать его секретный ключ и не выкладывать его на GitHub. После успешной авторизации система вывела обширный список доступного в облаке физического оборудования: смартфоны, XR-гарнитуры и автомобильные процессоры.

Для теста был выбран Snapdragon 8 Elite — новейшая система на кристалле (SoC) от Qualcomm, оснащенная кастомными вычислительными ядрами CPU, мощным графическим чипом и передовым NPU. Компиляция модели под этот чипсет заняла всего несколько секунд. Инструмент автоматически развернул MobileNet на реальном Android-смартфоне, подключенном к облачной ферме.

Платформа предоставляет инженеру исчерпывающую телеметрию. Разработчик видит скорость выполнения, точность вычислений и может применить квантование (quantization) для уменьшения размера сети. Спикер подчеркнул, что операционная система Android не гарантирует автоматическую оптимизацию под любое «железо». В линейке Qualcomm насчитывается около 40 различных аппаратных конфигураций девайсов. Облачная ферма позволяет убедиться, что приложение будет одинаково стабильно работать на всех поколениях чипов, включая устройства серии Google Pixel и различные автомобильные бортовые компьютеры. В качестве дополнительного примера Шридхар продемонстрировал лог другой сложной модели, время выполнения которой на чипе составило 73 миллисекунды, с детальной раскладкой нагрузки между блоками NPU и GPU.

⚙️ Доступный ИИ для хардверных стартапов: экосистема Qualcomm для IoT 15:20

В финальной части сессии вопросов и ответов один из независимых разработчиков поднял проблему доступности компонентов для небольших компаний. Он отметил, что традиционным выбором для создателей кастомных ИИ-устройств (например, умных камер или систем автоматизации освещения) обычно становятся модули от Nvidia (в частности, линейки Jetson или Orin), однако достать их конечному инженеру бывает крайне тяжело.

Кришна Шридхар пояснил, что в структуре Qualcomm существует отдельное бизнес-подразделение, сфокусированное на промышленном сегменте интернета вещей (Industrial IoT). Компания предлагает доступные по цене специализированные чипсеты. Базовым решением является плата Qualcomm 6490, которая работает под управлением операционной системы Linux и содержит на борту полноценные модули GPU и NPU.

Веб-интерфейс платформы позволяет стартапам перед покупкой физического чипа оценить производительность своей нейросети на всем спектре оборудования. Инженеры могут сравнить, как алгоритм компьютерного зрения или сегментации изображений покажет себя на чипах разного уровня — от самых бюджетных микросхем стоимостью 10 долларов до флагманских платформ. Спикер отдельно акцентировал внимание на том, что эти метрики являются результатами реальных запусков на удаленном оборудовании, а не теоретическими бенчмарками.

Отвечая на вопрос о праве использования полученных файлов, Шридхар подтвердил, что разработчики могут беспрепятственно скачивать скомпилированные модели и обладают полными коммерческими правами на их деплой в конечные продукты. Система позволяет экспортировать оптимизированные нейросети не только в закрытом формате Qualcomm (DLC), но и в открытых стандартах TensorFlow Lite (TFLite) или ONNX.