Джефф Гелхар из Qualcomm: как ML-компиляторы и обновляемые драйверы меняют мир ИИ

The TWIML AI Podcast 591 42 мин 4 мин 13.07.2021
Главное

В эпоху взрывного роста нейросетей акцент смещается с вопроса «как обучить модель» на вопрос «как заставить её эффективно работать на конкретном «железе». Джефф Гелхар, вице-президент по технологиям и глава подразделения AI-платформ Qualcomm, в подкасте TWIML AI обсуждает, как компания унифицирует разработку для облаков, смартфонов и интернета вещей. В центре внимания — компиляторы машинного обучения, новые API для разработчиков и технологии сжатия моделей, которые превращают обычные смартфоны в мощные ИИ-станции.

🚀 Унификация ИИ-стека: от облака до периферии 1:07

Джефф Гелхар курирует расширение инвестиций Qualcomm в программное обеспечение для ИИ во всем портфеле продуктов компании . Ключевой стратегический сдвиг текущего момента — гармонизация ИИ-стека. Это означает создание единой программной среды, которая охватывает как мобильные процессоры Snapdragon, так и специализированные ускорители для облачных вычислений.

В рамках этой стратегии обновленная роль Гелхара теперь включает контроль над линейкой продуктов Cloud AI 100 . Этот чип предназначен для:

По словам Гелхара, Cloud AI 100 способен обеспечивать сотни тераопераций в секунду (TOPS), а при установке в серверные стойки производительность достигает уровня петаопераций (PetaOPS) . При этом сохраняется традиционный фокус Qualcomm на энергоэффективности (low power), что критично для плотного размещения серверов в дата-центрах.

🛠️ Магия ML-компиляторов: тайлинг и генерация кода 3:22

Одной из самых горячих тем в индустрии стали компиляторы машинного обучения (ML compilers). Гелхар объясняет, что в отличие от классических компиляторов вроде C++, где алгоритм переводится в машинный код, ML-компилятор решает сложнейшую задачу поиска параллелизма в нейронных сетях .

Процесс работы компилятора в Qualcomm разделяют на два ключевых этапа:

  1. Тайлинг (Tiling) и планирование: Это «решение пазла». Компилятор анализирует граф нейросети и разбивает тензоры (массивы данных) на мелкие блоки так, чтобы они максимально эффективно помещались в локальную кэш-память чипа . Гелхар утверждает, что правильный тайлинг позволяет минимизировать дорогостоящие обращения к основной оперативной памяти (DDR) и максимально задействовать параллельные ядра ускорителя .
  2. Генерация кода (Code Generation): Когда оптимальный «рецепт» выполнения готов, компилятор создает набор конкретных инструкций для «железа» .

Для разных рынков Qualcomm использует разные инструменты :

📱 Смартфон как «черный ящик» с десятками нейросетей 20:13

Современный смартфон перестал быть просто средством связи; теперь это устройство, в котором одновременно работают десятки нейронных сетей. По оценке Гелхара, во флагманских моделях партнеров Qualcomm может быть задействовано от 50 до 70 моделей ИИ одновременно .

Этот «невидимый ИИ» выполняет множество задач:

Гелхар подчеркивает, что Qualcomm предоставляет OEM-производителям (таким как Samsung или Xiaomi) гибкость: они могут использовать готовые оптимизированные библиотеки Qualcomm для камер и звука или разрабатывать собственные проприетарные модели .

🔄 AI Engine Direct и обновляемые драйверы 17:37

Чтобы упростить жизнь разработчикам, компания представила AI Engine Direct . Это API среднего уровня, который служит связующим звеном между фреймворками исполнения (такими как TensorFlow Lite или ONNX Runtime) и аппаратными блоками чипа (GPU, Hexagon DSP и др.) .

Важным анонсом, сделанным совместно с Google, стала возможность обновления ИИ-драйверов через магазин приложений, подобно обычным апдейтам ПО . Гелхар объясняет важность этого шага:

📉 AIMET: Квантование и сжатие моделей 30:18

Оптимизация моделей для мобильных устройств невозможна без квантования (перевода вычислений из 32-битных чисел с плавающей точкой в 8-битные или даже 4-битные целые числа). Для этого Qualcomm развивает инструментарий AIMET (AI Model Efficiency Toolkit) .

Среди передовых техник Гелхар выделяет:

В настоящее время компания выпускает версию AIMET Pro для ключевых партнеров, обеспечивая более глубокую интеграцию с дорожной картой новых процессоров .

🌐 Будущее: Федеративное обучение и 5G 38:25

В финале беседы Джефф Гелхар затронул тему федеративного обучения — способа тренировки моделей на данных пользователей без их передачи в облако (что критично для приватности). Qualcomm, будучи лидером в области беспроводной связи, использует свой опыт симуляции миллионов пользователей с нестабильным соединением для развития этой технологии .

Перспективные сценарии использования включают:

💬 Цитаты

«Обычно говорят, что лучшая камера та, которая у вас в кармане. Но часто один кадр обрабатывается 10 или 15 разными нейросетями.»

Джефф Гелхар 22:24

«Мы можем улучшить производительность через ПО. Спустя 6 месяцев ваш бенчмарк вырастет, хотя железо не изменилось.»

Джефф Гелхар 29:29
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Тайлинг (Tiling)
Процесс разбиения больших массивов данных нейросети на мелкие блоки для эффективного размещения в локальной памяти чипа.
Квантование (Quantization)
Снижение точности представления весов нейросети (например, с 32-бит до 8-бит) для ускорения работы и экономии энергии.
Федеративное обучение
Метод машинного обучения, при котором модель тренируется на множестве децентрализованных устройств без передачи исходных данных на центральный сервер.
📊 Цифры
🗓 Хронология
  1. Май 2021 Анонс обновляемых драйверов для Android на конференции Google I/O.
  2. Конец 2020 Выпуск процессора Snapdragon 888 и анонс AI Engine Direct.
⚖️ Другая сторона
Искусственный интеллект Qualcomm Snapdragon Cloud AI 100 AIMET MLPerf