# Мурали Акула из Qualcomm: «Если технология ИИ не работает на устройстве, она нереальна»

Источник: https://www.youtube.com/watch?v=nnqTPUoqYRg
Канал: The TWIML AI Podcast
Опубликовано: 14.03.2022

---

На пути к полнофункциональному развертыванию искусственного интеллекта на мобильных устройствах инженеры сталкиваются с жесткими физическими ограничениями, которые отсутствуют в мощных дата-центрах. В новом выпуске подкаста **The TWIML AI Podcast** ведущий Сэм Чаррингтон беседует с Мурали Акулой, старшим директором по разработке программного обеспечения в **Qualcomm**. Они обсуждают концепцию «Full-Stack AI» — комплексного подхода к разработке, который позволяет переносить передовые нейросетевые модели из облачных серверов в карманные устройства, сохраняя их эффективность и точность.

## 🏗️ Концепция Full-Stack: от чипа до алгоритма
[[JUMP:04:50]]

В индустрии термин «full stack» часто размыт, однако для Qualcomm он имеет предельно конкретное значение. Мурали Акула подчеркивает, что разработка ИИ-систем требует оптимизации на каждом уровне: от архитектуры нейронной сети до специфических инструкций аппаратного ускорителя [05:42]. 

Главная проблема заключается в разрыве между средой разработки и средой исполнения:

*   **Исследовательская среда:** модели обучаются на огромных серверных стойках в дата-центрах с практически неограниченными вычислительными ресурсами [05:55].
*   **Реальные устройства:** приложения должны работать на мобильных платформах (смартфонах, VR-гарнитурах, беспилотниках) с жесткими лимитами по памяти и энергопотреблению [06:08].

По утверждению Акулы, в Qualcomm R&D придерживаются принципа: «Если ты это не построил — это не по-настоящему» [04:24]. Его команда выступает связующим звеном между фундаментальной наукой и коммерческим производством, создавая инструменты для бесшовного развертывания инноваций на чипах Snapdragon.

## 🔋 Жесткие ограничения мобильных платформ
[[JUMP:08:22]]

В отличие от десктопных приложений, где разработчики могут использовать Docker-контейнеры для изоляции среды, на мобильных устройствах такой роскоши нет [08:22]. Акула выделяет ключевые факторы, которые приходится учитывать инженерам:

1.  **Энергоэффективность:** Это приоритет номер один для устройств на батарейках. Высокая вычислительная нагрузка быстро разряжает смартфон или VR-шлем [08:48].
2.  **Задержка (Latency) в реальном времени:** В задачах автономного вождения или обработки видео с камер инференс должен происходить мгновенно. Время отклика не может зависеть от сетевого соединения с облаком [09:02].
3.  **Ограниченная накристальная память (On-chip memory):** Обращение к внешней памяти (off-chip) обходится дорого с точки зрения энергозатрат. Инженерам приходится искать баланс: увеличивать площадь чипа для памяти или жертвовать производительностью [10:18].
4.  **Многозадачность:** Нейросеть — не единственный процесс в системе. Она должна делить ресурсы с модулями связи (4G/5G), графикой и самой операционной системой [09:14].

## 🛠️ Технологический пайплайн: как уменьшить нейросеть
[[JUMP:11:50]]

Чтобы модель «вписалась» в мобильное железо, команда Акулы применяет целый арсенал техник. Процесс начинается еще на этапе проектирования архитектуры нейросети.

*   **Поиск нейронной архитектуры (NAS):** Использование автоматизированных инструментов для поиска оптимальной структуры сети, которая обеспечивает максимальную точность при минимальном числе параметров [12:42].
*   **Квантование (Quantization):** Переход от вычислений с плавающей точкой (FP32), используемых при обучении, к целочисленным операциям (Integer), которые аппаратные ускорители Qualcomm выполняют значительно быстрее и экономичнее [13:10].
*   **Компиляция и маппинг:** Оптимальное распределение тензоров в памяти и привязка вычислений к конкретным инструкциям аппаратного блока [13:22].
*   **Гетерогенные вычисления:** Платформа Snapdragon включает в себя CPU, GPU, DSP и специализированный ИИ-ускоритель. Задача инженеров — распределить нагрузку между этими блоками наиболее эффективно [24:40].

## 🚗 Кейс: Монокулярная оценка глубины (Monocular Depth Estimation)
[[JUMP:15:36]]

В качестве живого примера Мурали Акула приводит разработку системы оценки глубины по единственному кадру камеры. Эта технология критически важна для автономных транспортных средств, дронов (избегание препятствий на высокой скорости) и смартфонов (фокусировка камеры и эффекты боке) [16:02].

Процесс реализации этого проекта включал несколько этапов:

1.  **Алгоритм X-Distill:** Исследователи разработали метод, при котором во время обучения используется избыточная семантическая информация для повышения точности [21:25]. При этом сама «тяжелая» семантическая часть не переносится на устройство, оставляя только легкую сеть для инференса [22:16].
2.  **Оптимизация скорости:** Изначально модель выдавала около 23 кадров в секунду (fps), что недостаточно для реального времени. С помощью NAS и техник сжатия команде удалось повысить производительность [19:48].
3.  **Решение проблемы последовательности:** В процессе разработки обнаружилось, что энтропийные кодировщики создают «бутылочное горлышко», так как работают последовательно. Команда смогла распараллелить этот процесс, распределив вычисления между ускорителем и CPU [23:59].

## 📈 Будущее: обучение на устройствах и открытый код
[[JUMP:25:30]]

Традиционно обучение ИИ происходило в облаке, а на устройствах выполнялся только инференс. Однако Акула отмечает растущий тренд на **обучение прямо на устройстве (on-device training)**. Это необходимо прежде всего для персонализации: модель дообучается на уникальных данных пользователя, не отправляя их в облако, что гарантирует приватность [25:57].

На конференции NeurIPS 2021 компания продемонстрировала систему **федеративного обучения (Federated Learning)**. В этой схеме тысячи устройств обрабатывают данные локально, а на сервер отправляются только инкрементальные обновления весов модели для улучшения общего алгоритма [26:24].

Qualcomm также активно делится своими наработками с сообществом:

*   **AIMET (AI Model Efficiency Toolkit):** Проект с открытым исходным кодом, который позволяет сторонним разработчикам использовать библиотеки Qualcomm для квантования и сжатия моделей [31:15].
*   **Model Zoo:** Набор готовых, оптимизированных под Snapdragon моделей, доступных для интеграции в сторонние приложения [31:30].

В завершение Мурали Акула поясняет, что хотя его команда занимается исследованиями (R&D), их задача — создавать «готовый конвейер» (pipeline). Как только технология доказывает свою жизнеспособность на реальном «железе», продуктовые команды Qualcomm подхватывают её для включения в коммерческие дорожные карты будущих чипов [29:44].