Мурали Акула из Qualcomm: «Если технология ИИ не работает на устройстве, она нереальна»

The TWIML AI Podcast 732 32 мин 4 мин 14.03.2022
Главное

На пути к полнофункциональному развертыванию искусственного интеллекта на мобильных устройствах инженеры сталкиваются с жесткими физическими ограничениями, которые отсутствуют в мощных дата-центрах. В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Мурали Акулой, старшим директором по разработке программного обеспечения в Qualcomm. Они обсуждают концепцию «Full-Stack AI» — комплексного подхода к разработке, который позволяет переносить передовые нейросетевые модели из облачных серверов в карманные устройства, сохраняя их эффективность и точность.

🏗️ Концепция Full-Stack: от чипа до алгоритма 4:50

В индустрии термин «full stack» часто размыт, однако для Qualcomm он имеет предельно конкретное значение. Мурали Акула подчеркивает, что разработка ИИ-систем требует оптимизации на каждом уровне: от архитектуры нейронной сети до специфических инструкций аппаратного ускорителя .

Главная проблема заключается в разрыве между средой разработки и средой исполнения:

По утверждению Акулы, в Qualcomm R&D придерживаются принципа: «Если ты это не построил — это не по-настоящему» . Его команда выступает связующим звеном между фундаментальной наукой и коммерческим производством, создавая инструменты для бесшовного развертывания инноваций на чипах Snapdragon.

🔋 Жесткие ограничения мобильных платформ 8:22

В отличие от десктопных приложений, где разработчики могут использовать Docker-контейнеры для изоляции среды, на мобильных устройствах такой роскоши нет . Акула выделяет ключевые факторы, которые приходится учитывать инженерам:

  1. Энергоэффективность: Это приоритет номер один для устройств на батарейках. Высокая вычислительная нагрузка быстро разряжает смартфон или VR-шлем .
  2. Задержка (Latency) в реальном времени: В задачах автономного вождения или обработки видео с камер инференс должен происходить мгновенно. Время отклика не может зависеть от сетевого соединения с облаком .
  3. Ограниченная накристальная память (On-chip memory): Обращение к внешней памяти (off-chip) обходится дорого с точки зрения энергозатрат. Инженерам приходится искать баланс: увеличивать площадь чипа для памяти или жертвовать производительностью .
  4. Многозадачность: Нейросеть — не единственный процесс в системе. Она должна делить ресурсы с модулями связи (4G/5G), графикой и самой операционной системой .

🛠️ Технологический пайплайн: как уменьшить нейросеть 11:50

Чтобы модель «вписалась» в мобильное железо, команда Акулы применяет целый арсенал техник. Процесс начинается еще на этапе проектирования архитектуры нейросети.

🚗 Кейс: Монокулярная оценка глубины (Monocular Depth Estimation) 15:36

В качестве живого примера Мурали Акула приводит разработку системы оценки глубины по единственному кадру камеры. Эта технология критически важна для автономных транспортных средств, дронов (избегание препятствий на высокой скорости) и смартфонов (фокусировка камеры и эффекты боке) .

Процесс реализации этого проекта включал несколько этапов:

  1. Алгоритм X-Distill: Исследователи разработали метод, при котором во время обучения используется избыточная семантическая информация для повышения точности . При этом сама «тяжелая» семантическая часть не переносится на устройство, оставляя только легкую сеть для инференса .
  2. Оптимизация скорости: Изначально модель выдавала около 23 кадров в секунду (fps), что недостаточно для реального времени. С помощью NAS и техник сжатия команде удалось повысить производительность .
  3. Решение проблемы последовательности: В процессе разработки обнаружилось, что энтропийные кодировщики создают «бутылочное горлышко», так как работают последовательно. Команда смогла распараллелить этот процесс, распределив вычисления между ускорителем и CPU .

📈 Будущее: обучение на устройствах и открытый код 25:30

Традиционно обучение ИИ происходило в облаке, а на устройствах выполнялся только инференс. Однако Акула отмечает растущий тренд на обучение прямо на устройстве (on-device training). Это необходимо прежде всего для персонализации: модель дообучается на уникальных данных пользователя, не отправляя их в облако, что гарантирует приватность .

На конференции NeurIPS 2021 компания продемонстрировала систему федеративного обучения (Federated Learning). В этой схеме тысячи устройств обрабатывают данные локально, а на сервер отправляются только инкрементальные обновления весов модели для улучшения общего алгоритма .

Qualcomm также активно делится своими наработками с сообществом:

В завершение Мурали Акула поясняет, что хотя его команда занимается исследованиями (R&D), их задача — создавать «готовый конвейер» (pipeline). Как только технология доказывает свою жизнеспособность на реальном «железе», продуктовые команды Qualcomm подхватывают её для включения в коммерческие дорожные карты будущих чипов .

💬 Цитаты

«У нас есть такая установка: пока вы это не построили, это не по-настоящему. Мы создаем вещи, которые могут масштабироваться и внедряться.»

Мурали Акула 01:35

«Вы не можете просто постоянно увеличивать размер чипа. Площадь кристалла — это огромная проблема.»

Мурали Акула 10:04
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Квантование (Quantization)
Процесс перевода весов нейросети из формата с плавающей точкой в целочисленный формат для ускорения работы на мобильных процессорах.
Инференс (Inference)
Процесс использования уже обученной нейросети для получения предсказаний на новых данных.
NAS (Neural Architecture Search)
Автоматизированная технология поиска оптимальной структуры нейронной сети под конкретные задачи и ограничения.
📊 Цифры
🗓 Хронология
  1. конец 2000-х Мурали Акула переходит от разработки 4G-стека к исследованиям пользовательского опыта смартфонов.
  2. 2021 Демонстрация системы сквозного федеративного обучения на конференции NeurIPS.
⚖️ Другая сторона
Искусственный интеллект Qualcomm Snapdragon AIMET Murali Akula Full-Stack AI