На пути к полнофункциональному развертыванию искусственного интеллекта на мобильных устройствах инженеры сталкиваются с жесткими физическими ограничениями, которые отсутствуют в мощных дата-центрах. В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Мурали Акулой, старшим директором по разработке программного обеспечения в Qualcomm. Они обсуждают концепцию «Full-Stack AI» — комплексного подхода к разработке, который позволяет переносить передовые нейросетевые модели из облачных серверов в карманные устройства, сохраняя их эффективность и точность.
🏗️ Концепция Full-Stack: от чипа до алгоритма 4:50
В индустрии термин «full stack» часто размыт, однако для Qualcomm он имеет предельно конкретное значение. Мурали Акула подчеркивает, что разработка ИИ-систем требует оптимизации на каждом уровне: от архитектуры нейронной сети до специфических инструкций аппаратного ускорителя .
Главная проблема заключается в разрыве между средой разработки и средой исполнения:
- Исследовательская среда: модели обучаются на огромных серверных стойках в дата-центрах с практически неограниченными вычислительными ресурсами .
- Реальные устройства: приложения должны работать на мобильных платформах (смартфонах, VR-гарнитурах, беспилотниках) с жесткими лимитами по памяти и энергопотреблению .
По утверждению Акулы, в Qualcomm R&D придерживаются принципа: «Если ты это не построил — это не по-настоящему» . Его команда выступает связующим звеном между фундаментальной наукой и коммерческим производством, создавая инструменты для бесшовного развертывания инноваций на чипах Snapdragon.
🔋 Жесткие ограничения мобильных платформ 8:22
В отличие от десктопных приложений, где разработчики могут использовать Docker-контейнеры для изоляции среды, на мобильных устройствах такой роскоши нет . Акула выделяет ключевые факторы, которые приходится учитывать инженерам:
- Энергоэффективность: Это приоритет номер один для устройств на батарейках. Высокая вычислительная нагрузка быстро разряжает смартфон или VR-шлем .
- Задержка (Latency) в реальном времени: В задачах автономного вождения или обработки видео с камер инференс должен происходить мгновенно. Время отклика не может зависеть от сетевого соединения с облаком .
- Ограниченная накристальная память (On-chip memory): Обращение к внешней памяти (off-chip) обходится дорого с точки зрения энергозатрат. Инженерам приходится искать баланс: увеличивать площадь чипа для памяти или жертвовать производительностью .
- Многозадачность: Нейросеть — не единственный процесс в системе. Она должна делить ресурсы с модулями связи (4G/5G), графикой и самой операционной системой .
🛠️ Технологический пайплайн: как уменьшить нейросеть 11:50
Чтобы модель «вписалась» в мобильное железо, команда Акулы применяет целый арсенал техник. Процесс начинается еще на этапе проектирования архитектуры нейросети.
- Поиск нейронной архитектуры (NAS): Использование автоматизированных инструментов для поиска оптимальной структуры сети, которая обеспечивает максимальную точность при минимальном числе параметров .
- Квантование (Quantization): Переход от вычислений с плавающей точкой (FP32), используемых при обучении, к целочисленным операциям (Integer), которые аппаратные ускорители Qualcomm выполняют значительно быстрее и экономичнее .
- Компиляция и маппинг: Оптимальное распределение тензоров в памяти и привязка вычислений к конкретным инструкциям аппаратного блока .
- Гетерогенные вычисления: Платформа Snapdragon включает в себя CPU, GPU, DSP и специализированный ИИ-ускоритель. Задача инженеров — распределить нагрузку между этими блоками наиболее эффективно .
🚗 Кейс: Монокулярная оценка глубины (Monocular Depth Estimation) 15:36
В качестве живого примера Мурали Акула приводит разработку системы оценки глубины по единственному кадру камеры. Эта технология критически важна для автономных транспортных средств, дронов (избегание препятствий на высокой скорости) и смартфонов (фокусировка камеры и эффекты боке) .
Процесс реализации этого проекта включал несколько этапов:
- Алгоритм X-Distill: Исследователи разработали метод, при котором во время обучения используется избыточная семантическая информация для повышения точности . При этом сама «тяжелая» семантическая часть не переносится на устройство, оставляя только легкую сеть для инференса .
- Оптимизация скорости: Изначально модель выдавала около 23 кадров в секунду (fps), что недостаточно для реального времени. С помощью NAS и техник сжатия команде удалось повысить производительность .
- Решение проблемы последовательности: В процессе разработки обнаружилось, что энтропийные кодировщики создают «бутылочное горлышко», так как работают последовательно. Команда смогла распараллелить этот процесс, распределив вычисления между ускорителем и CPU .
📈 Будущее: обучение на устройствах и открытый код 25:30
Традиционно обучение ИИ происходило в облаке, а на устройствах выполнялся только инференс. Однако Акула отмечает растущий тренд на обучение прямо на устройстве (on-device training). Это необходимо прежде всего для персонализации: модель дообучается на уникальных данных пользователя, не отправляя их в облако, что гарантирует приватность .
На конференции NeurIPS 2021 компания продемонстрировала систему федеративного обучения (Federated Learning). В этой схеме тысячи устройств обрабатывают данные локально, а на сервер отправляются только инкрементальные обновления весов модели для улучшения общего алгоритма .
Qualcomm также активно делится своими наработками с сообществом:
- AIMET (AI Model Efficiency Toolkit): Проект с открытым исходным кодом, который позволяет сторонним разработчикам использовать библиотеки Qualcomm для квантования и сжатия моделей .
- Model Zoo: Набор готовых, оптимизированных под Snapdragon моделей, доступных для интеграции в сторонние приложения .
В завершение Мурали Акула поясняет, что хотя его команда занимается исследованиями (R&D), их задача — создавать «готовый конвейер» (pipeline). Как только технология доказывает свою жизнеспособность на реальном «железе», продуктовые команды Qualcomm подхватывают её для включения в коммерческие дорожные карты будущих чипов .