Мурали Акула из Qualcomm: «Если технология ИИ не работает на устройстве, она нереальна»

На пути к полнофункциональному развертыванию искусственного интеллекта на мобильных устройствах инженеры сталкиваются с жесткими физическими ограничениями, которые отсутствуют в мощных дата-центрах. В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Мурали Акулой, старшим директором по разработке программного обеспечения в Qualcomm. Они обсуждают концепцию «Full-Stack AI» — комплексного подхода к разработке, который позволяет переносить передовые нейросетевые модели из облачных серверов в карманные устройства, сохраняя их эффективность и точность.

🏗️ Концепция Full-Stack: от чипа до алгоритма 4:50

В индустрии термин «full stack» часто размыт, однако для Qualcomm он имеет предельно конкретное значение. Мурали Акула подчеркивает, что разработка ИИ-систем требует оптимизации на каждом уровне: от архитектуры нейронной сети до специфических инструкций аппаратного ускорителя .

Главная проблема заключается в разрыве между средой разработки и средой исполнения:

Исследовательская среда: модели обучаются на огромных серверных стойках в дата-центрах с практически неограниченными вычислительными ресурсами .
Реальные устройства: приложения должны работать на мобильных платформах (смартфонах, VR-гарнитурах, беспилотниках) с жесткими лимитами по памяти и энергопотреблению .

По утверждению Акулы, в Qualcomm R&D придерживаются принципа: «Если ты это не построил — это не по-настоящему» . Его команда выступает связующим звеном между фундаментальной наукой и коммерческим производством, создавая инструменты для бесшовного развертывания инноваций на чипах Snapdragon.

🔋 Жесткие ограничения мобильных платформ 8:22

В отличие от десктопных приложений, где разработчики могут использовать Docker-контейнеры для изоляции среды, на мобильных устройствах такой роскоши нет . Акула выделяет ключевые факторы, которые приходится учитывать инженерам:

Энергоэффективность: Это приоритет номер один для устройств на батарейках. Высокая вычислительная нагрузка быстро разряжает смартфон или VR-шлем .
Задержка (Latency) в реальном времени: В задачах автономного вождения или обработки видео с камер инференс должен происходить мгновенно. Время отклика не может зависеть от сетевого соединения с облаком .
Ограниченная накристальная память (On-chip memory): Обращение к внешней памяти (off-chip) обходится дорого с точки зрения энергозатрат. Инженерам приходится искать баланс: увеличивать площадь чипа для памяти или жертвовать производительностью .
Многозадачность: Нейросеть — не единственный процесс в системе. Она должна делить ресурсы с модулями связи (4G/5G), графикой и самой операционной системой .

🛠️ Технологический пайплайн: как уменьшить нейросеть 11:50

Чтобы модель «вписалась» в мобильное железо, команда Акулы применяет целый арсенал техник. Процесс начинается еще на этапе проектирования архитектуры нейросети.

Поиск нейронной архитектуры (NAS): Использование автоматизированных инструментов для поиска оптимальной структуры сети, которая обеспечивает максимальную точность при минимальном числе параметров .
Квантование (Quantization): Переход от вычислений с плавающей точкой (FP32), используемых при обучении, к целочисленным операциям (Integer), которые аппаратные ускорители Qualcomm выполняют значительно быстрее и экономичнее .
Компиляция и маппинг: Оптимальное распределение тензоров в памяти и привязка вычислений к конкретным инструкциям аппаратного блока .
Гетерогенные вычисления: Платформа Snapdragon включает в себя CPU, GPU, DSP и специализированный ИИ-ускоритель. Задача инженеров — распределить нагрузку между этими блоками наиболее эффективно .

🚗 Кейс: Монокулярная оценка глубины (Monocular Depth Estimation) 15:36

В качестве живого примера Мурали Акула приводит разработку системы оценки глубины по единственному кадру камеры. Эта технология критически важна для автономных транспортных средств, дронов (избегание препятствий на высокой скорости) и смартфонов (фокусировка камеры и эффекты боке) .

Процесс реализации этого проекта включал несколько этапов:

Алгоритм X-Distill: Исследователи разработали метод, при котором во время обучения используется избыточная семантическая информация для повышения точности . При этом сама «тяжелая» семантическая часть не переносится на устройство, оставляя только легкую сеть для инференса .
Оптимизация скорости: Изначально модель выдавала около 23 кадров в секунду (fps), что недостаточно для реального времени. С помощью NAS и техник сжатия команде удалось повысить производительность .
Решение проблемы последовательности: В процессе разработки обнаружилось, что энтропийные кодировщики создают «бутылочное горлышко», так как работают последовательно. Команда смогла распараллелить этот процесс, распределив вычисления между ускорителем и CPU .

📈 Будущее: обучение на устройствах и открытый код 25:30

Традиционно обучение ИИ происходило в облаке, а на устройствах выполнялся только инференс. Однако Акула отмечает растущий тренд на обучение прямо на устройстве (on-device training). Это необходимо прежде всего для персонализации: модель дообучается на уникальных данных пользователя, не отправляя их в облако, что гарантирует приватность .

На конференции NeurIPS 2021 компания продемонстрировала систему федеративного обучения (Federated Learning). В этой схеме тысячи устройств обрабатывают данные локально, а на сервер отправляются только инкрементальные обновления весов модели для улучшения общего алгоритма .

Qualcomm также активно делится своими наработками с сообществом:

AIMET (AI Model Efficiency Toolkit): Проект с открытым исходным кодом, который позволяет сторонним разработчикам использовать библиотеки Qualcomm для квантования и сжатия моделей .
Model Zoo: Набор готовых, оптимизированных под Snapdragon моделей, доступных для интеграции в сторонние приложения .

В завершение Мурали Акула поясняет, что хотя его команда занимается исследованиями (R&D), их задача — создавать «готовый конвейер» (pipeline). Как только технология доказывает свою жизнеспособность на реальном «железе», продуктовые команды Qualcomm подхватывают её для включения в коммерческие дорожные карты будущих чипов .