Джефф Гелхар из Qualcomm: как ML-компиляторы и обновляемые драйверы меняют мир ИИ

В эпоху взрывного роста нейросетей акцент смещается с вопроса «как обучить модель» на вопрос «как заставить её эффективно работать на конкретном «железе». Джефф Гелхар, вице-президент по технологиям и глава подразделения AI-платформ Qualcomm, в подкасте TWIML AI обсуждает, как компания унифицирует разработку для облаков, смартфонов и интернета вещей. В центре внимания — компиляторы машинного обучения, новые API для разработчиков и технологии сжатия моделей, которые превращают обычные смартфоны в мощные ИИ-станции.

🚀 Унификация ИИ-стека: от облака до периферии 1:07

Джефф Гелхар курирует расширение инвестиций Qualcomm в программное обеспечение для ИИ во всем портфеле продуктов компании . Ключевой стратегический сдвиг текущего момента — гармонизация ИИ-стека. Это означает создание единой программной среды, которая охватывает как мобильные процессоры Snapdragon, так и специализированные ускорители для облачных вычислений.

В рамках этой стратегии обновленная роль Гелхара теперь включает контроль над линейкой продуктов Cloud AI 100 . Этот чип предназначен для:

Инфраструктуры облачного вывода (Cloud Inference).
«Умных городов» и систем видеонаблюдения.
Автономных роботов и систем автоматизированного вождения .

По словам Гелхара, Cloud AI 100 способен обеспечивать сотни тераопераций в секунду (TOPS), а при установке в серверные стойки производительность достигает уровня петаопераций (PetaOPS) . При этом сохраняется традиционный фокус Qualcomm на энергоэффективности (low power), что критично для плотного размещения серверов в дата-центрах.

🛠️ Магия ML-компиляторов: тайлинг и генерация кода 3:22

Одной из самых горячих тем в индустрии стали компиляторы машинного обучения (ML compilers). Гелхар объясняет, что в отличие от классических компиляторов вроде C++, где алгоритм переводится в машинный код, ML-компилятор решает сложнейшую задачу поиска параллелизма в нейронных сетях .

Процесс работы компилятора в Qualcomm разделяют на два ключевых этапа:

Тайлинг (Tiling) и планирование: Это «решение пазла». Компилятор анализирует граф нейросети и разбивает тензоры (массивы данных) на мелкие блоки так, чтобы они максимально эффективно помещались в локальную кэш-память чипа . Гелхар утверждает, что правильный тайлинг позволяет минимизировать дорогостоящие обращения к основной оперативной памяти (DDR) и максимально задействовать параллельные ядра ускорителя .
Генерация кода (Code Generation): Когда оптимальный «рецепт» выполнения готов, компилятор создает набор конкретных инструкций для «железа» .

Для разных рынков Qualcomm использует разные инструменты :

Glow: Инфраструктура, изначально созданная Facebook (Meta), используется для мощных облачных решений серии Cloud AI 100.
TVM: Проект с открытым исходным кодом, на который Qualcomm делает ставку в сегменте мобильных устройств Snapdragon и IoT .
TinyTVM: Специализированная версия для сверхмалых устройств, которые должны работать в режиме «всегда включен» (Always-on) .

📱 Смартфон как «черный ящик» с десятками нейросетей 20:13

Современный смартфон перестал быть просто средством связи; теперь это устройство, в котором одновременно работают десятки нейронных сетей. По оценке Гелхара, во флагманских моделях партнеров Qualcomm может быть задействовано от 50 до 70 моделей ИИ одновременно .

Этот «невидимый ИИ» выполняет множество задач:

Биометрия: Распознавание лиц и отпечатков пальцев.
Фотография: Ночная съемка, отслеживание субъектов, подавление шумов на снимках.
Super Resolution: Искусственное повышение разрешения, когда данные с маленького сенсора превращаются в четкое изображение высокого качества за счёт алгоритмов .
Аудио: Интеллектуальное шумоподавление микрофона во время звонков .

Гелхар подчеркивает, что Qualcomm предоставляет OEM-производителям (таким как Samsung или Xiaomi) гибкость: они могут использовать готовые оптимизированные библиотеки Qualcomm для камер и звука или разрабатывать собственные проприетарные модели .

🔄 AI Engine Direct и обновляемые драйверы 17:37

Чтобы упростить жизнь разработчикам, компания представила AI Engine Direct . Это API среднего уровня, который служит связующим звеном между фреймворками исполнения (такими как TensorFlow Lite или ONNX Runtime) и аппаратными блоками чипа (GPU, Hexagon DSP и др.) .

Важным анонсом, сделанным совместно с Google, стала возможность обновления ИИ-драйверов через магазин приложений, подобно обычным апдейтам ПО . Гелхар объясняет важность этого шага:

Алгоритмы компиляции и тайлинга постоянно совершенствуются.
Благодаря обновлению драйверов старое «железо» может показывать лучшие результаты в бенчмарках (например, в MLPerf или Geekbench) спустя месяцы после покупки .
Пользователь получает прирост производительности ИИ без необходимости менять смартфон .

📉 AIMET: Квантование и сжатие моделей 30:18

Оптимизация моделей для мобильных устройств невозможна без квантования (перевода вычислений из 32-битных чисел с плавающей точкой в 8-битные или даже 4-битные целые числа). Для этого Qualcomm развивает инструментарий AIMET (AI Model Efficiency Toolkit) .

Среди передовых техник Гелхар выделяет:

AdaRound: Метод стохастического округления весов, который значительно повышает точность квантованной модели по сравнению с обычным округлением .
Hardware-aware Quantization Aware Training (QAT): Обучение модели с учетом специфических особенностей конкретного «железа», на котором она будет работать .

В настоящее время компания выпускает версию AIMET Pro для ключевых партнеров, обеспечивая более глубокую интеграцию с дорожной картой новых процессоров .

🌐 Будущее: Федеративное обучение и 5G 38:25

В финале беседы Джефф Гелхар затронул тему федеративного обучения — способа тренировки моделей на данных пользователей без их передачи в облако (что критично для приватности). Qualcomm, будучи лидером в области беспроводной связи, использует свой опыт симуляции миллионов пользователей с нестабильным соединением для развития этой технологии .

Перспективные сценарии использования включают:

Улучшение работы «пробуждающих слов» (Wake words) для голосовых ассистентов.
Тонкая настройка моделей на основе коллективного опыта пользователей разных устройств.
Совместная работа 5G и ИИ, где высокая скорость связи позволяет быстро обмениваться только градиентами (обновлениями) моделей, а не самими данными пользователей .