# Джефф Гелхар из Qualcomm: как ML-компиляторы и обновляемые драйверы меняют мир ИИ

Источник: https://www.youtube.com/watch?v=kPgj8bG1BLc
Канал: The TWIML AI Podcast
Опубликовано: 13.07.2021

---

В эпоху взрывного роста нейросетей акцент смещается с вопроса «как обучить модель» на вопрос «как заставить её эффективно работать на конкретном «железе». Джефф Гелхар, вице-президент по технологиям и глава подразделения AI-платформ Qualcomm, в подкасте TWIML AI обсуждает, как компания унифицирует разработку для облаков, смартфонов и интернета вещей. В центре внимания — компиляторы машинного обучения, новые API для разработчиков и технологии сжатия моделей, которые превращают обычные смартфоны в мощные ИИ-станции.

## 🚀 Унификация ИИ-стека: от облака до периферии
[[JUMP:01:07]]

Джефф Гелхар курирует расширение инвестиций Qualcomm в программное обеспечение для ИИ во всем портфеле продуктов компании [01:20]. Ключевой стратегический сдвиг текущего момента — гармонизация ИИ-стека. Это означает создание единой программной среды, которая охватывает как мобильные процессоры Snapdragon, так и специализированные ускорители для облачных вычислений.

В рамках этой стратегии обновленная роль Гелхара теперь включает контроль над линейкой продуктов Cloud AI 100 [01:35]. Этот чип предназначен для:

*   Инфраструктуры облачного вывода (Cloud Inference).
*   «Умных городов» и систем видеонаблюдения.
*   Автономных роботов и систем автоматизированного вождения [02:29].

По словам Гелхара, Cloud AI 100 способен обеспечивать сотни тераопераций в секунду (TOPS), а при установке в серверные стойки производительность достигает уровня петаопераций (PetaOPS) [02:44]. При этом сохраняется традиционный фокус Qualcomm на энергоэффективности (low power), что критично для плотного размещения серверов в дата-центрах.

## 🛠️ Магия ML-компиляторов: тайлинг и генерация кода
[[JUMP:03:22]]

Одной из самых горячих тем в индустрии стали компиляторы машинного обучения (ML compilers). Гелхар объясняет, что в отличие от классических компиляторов вроде C++, где алгоритм переводится в машинный код, ML-компилятор решает сложнейшую задачу поиска параллелизма в нейронных сетях [04:29].

Процесс работы компилятора в Qualcomm разделяют на два ключевых этапа:

1.  **Тайлинг (Tiling) и планирование:** Это «решение пазла». Компилятор анализирует граф нейросети и разбивает тензоры (массивы данных) на мелкие блоки так, чтобы они максимально эффективно помещались в локальную кэш-память чипа [06:45]. Гелхар утверждает, что правильный тайлинг позволяет минимизировать дорогостоящие обращения к основной оперативной памяти (DDR) и максимально задействовать параллельные ядра ускорителя [07:12].
2.  **Генерация кода (Code Generation):** Когда оптимальный «рецепт» выполнения готов, компилятор создает набор конкретных инструкций для «железа» [09:11].

Для разных рынков Qualcomm использует разные инструменты [05:38]:

*   **Glow:** Инфраструктура, изначально созданная Facebook (Meta), используется для мощных облачных решений серии Cloud AI 100.
*   **TVM:** Проект с открытым исходным кодом, на который Qualcomm делает ставку в сегменте мобильных устройств Snapdragon и IoT [06:04].
*   **TinyTVM:** Специализированная версия для сверхмалых устройств, которые должны работать в режиме «всегда включен» (Always-on) [13:31].

## 📱 Смартфон как «черный ящик» с десятками нейросетей
[[JUMP:20:13]]

Современный смартфон перестал быть просто средством связи; теперь это устройство, в котором одновременно работают десятки нейронных сетей. По оценке Гелхара, во флагманских моделях партнеров Qualcomm может быть задействовано от 50 до 70 моделей ИИ одновременно [21:05].

Этот «невидимый ИИ» выполняет множество задач:

*   **Биометрия:** Распознавание лиц и отпечатков пальцев.
*   **Фотография:** Ночная съемка, отслеживание субъектов, подавление шумов на снимках.
*   **Super Resolution:** Искусственное повышение разрешения, когда данные с маленького сенсора превращаются в четкое изображение высокого качества за счёт алгоритмов [21:45].
*   **Аудио:** Интеллектуальное шумоподавление микрофона во время звонков [22:39].

Гелхар подчеркивает, что Qualcomm предоставляет OEM-производителям (таким как Samsung или Xiaomi) гибкость: они могут использовать готовые оптимизированные библиотеки Qualcomm для камер и звука или разрабатывать собственные проприетарные модели [25:30].

## 🔄 AI Engine Direct и обновляемые драйверы
[[JUMP:17:37]]

Чтобы упростить жизнь разработчикам, компания представила **AI Engine Direct** [17:49]. Это API среднего уровня, который служит связующим звеном между фреймворками исполнения (такими как TensorFlow Lite или ONNX Runtime) и аппаратными блоками чипа (GPU, Hexagon DSP и др.) [18:54].

Важным анонсом, сделанным совместно с Google, стала возможность обновления ИИ-драйверов через магазин приложений, подобно обычным апдейтам ПО [27:41]. Гелхар объясняет важность этого шага:

*   Алгоритмы компиляции и тайлинга постоянно совершенствуются.
*   Благодаря обновлению драйверов старое «железо» может показывать лучшие результаты в бенчмарках (например, в MLPerf или Geekbench) спустя месяцы после покупки [29:17].
*   Пользователь получает прирост производительности ИИ без необходимости менять смартфон [29:42].

## 📉 AIMET: Квантование и сжатие моделей
[[JUMP:30:18]]

Оптимизация моделей для мобильных устройств невозможна без квантования (перевода вычислений из 32-битных чисел с плавающей точкой в 8-битные или даже 4-битные целые числа). Для этого Qualcomm развивает инструментарий **AIMET (AI Model Efficiency Toolkit)** [30:32].

Среди передовых техник Гелхар выделяет:

*   **AdaRound:** Метод стохастического округления весов, который значительно повышает точность квантованной модели по сравнению с обычным округлением [33:24].
*   **Hardware-aware Quantization Aware Training (QAT):** Обучение модели с учетом специфических особенностей конкретного «железа», на котором она будет работать [36:16].

В настоящее время компания выпускает версию **AIMET Pro** для ключевых партнеров, обеспечивая более глубокую интеграцию с дорожной картой новых процессоров [32:05].

## 🌐 Будущее: Федеративное обучение и 5G
[[JUMP:38:25]]

В финале беседы Джефф Гелхар затронул тему федеративного обучения — способа тренировки моделей на данных пользователей без их передачи в облако (что критично для приватности). Qualcomm, будучи лидером в области беспроводной связи, использует свой опыт симуляции миллионов пользователей с нестабильным соединением для развития этой технологии [39:30].

Перспективные сценарии использования включают:

*   Улучшение работы «пробуждающих слов» (Wake words) для голосовых ассистентов.
*   Тонкая настройка моделей на основе коллективного опыта пользователей разных устройств.
*   Совместная работа 5G и ИИ, где высокая скорость связи позволяет быстро обмениваться только градиентами (обновлениями) моделей, а не самими данными пользователей [41:12].