Джилей Хоу (Qualcomm): «ИИ будущего — это гибрид устройства и облака»

The TWIML AI Podcast with Sam Charrington 1,1 тыс. 45 мин 3 мин 12.06.2023
Главное

Будущее ИИ на граничных устройствах: взгляд эксперта Qualcomm 0:00

Генеративный искусственный интеллект совершает революцию в том, как мы взаимодействуем с технологиями, переходя от облачных вычислений к работе непосредственно на персональных устройствах. Джилей Хоу (Jilei Hou), вице-президент по инжинирингу Qualcomm Technologies, в подкасте The TWIML AI Podcast обсудил, как компания адаптирует сложные модели, такие как Stable Diffusion и LLM (большие языковые модели), для работы «на грани» (on-device).

🔬 Информационная теория как фундамент ИИ 0:54

Джилей Хоу отмечает, что современная архитектура ИИ глубоко укоренена в теории информации и обработке сигналов. По его словам, такие понятия, как KL-дивергенция (мера различия между двумя распределениями вероятностей), изначально возникли в теории информации, а затем стали фундаментальными объектами при обучении нейронных сетей.

В Qualcomm этот подход стал основой для исследований в области сжатия данных. Исследовательская группа Qualcomm AI Research, сформированная около 2018 года, объединяет 200–300 специалистов, чья работа сфокусирована на трёх ключевых направлениях:

🎨 Stable Diffusion на смартфоне: вызовы и решения 13:26

Запуск Stable Diffusion на граничных устройствах стал важной вехой для индустрии. По мнению Джилея Хоу, это критически важно по трем причинам:

  1. Конфиденциальность: личные промпты и контент пользователя остаются на устройстве и не передаются в облако.
  2. Экономия: перенос вычислений на миллиарды устройств позволяет амортизировать затраты на инференс, которые становятся непомерно высокими для облачных провайдеров при массовом использовании.
  3. Надежность: работа устройства не зависит от стабильности интернет-соединения или загруженности облачных серверов.

Главным техническим вызовом стал размер модели. Если типичные ИИ-задачи на мобильных устройствах требуют менее 100 млн параметров, то Stable Diffusion оперирует 1,1 млрд параметров. Для решения проблемы латентности (задержки) Qualcomm применила продвинутые методы квантования, такие как Adaround. Эта технология позволяет квантовать веса модели до 8 бит без переобучения, обеспечивая при этом качество, эквивалентное более высоким форматам за счет «магического» прироста отношения сигнал/шум на 4–6 дБ. Благодаря этому компания смогла добиться генерации изображения менее чем за 13 секунд и ставит цель сократить это время до 5 секунд.

🤖 LLM против LVM: разная природа «зверя» 26:01

Джилей Хоу разделяет генеративные модели на два типа: LVM (языково-визуальные модели, такие как Stable Diffusion) и LLM (текстовые модели). Работа с ними требует разного подхода:

По словам эксперта, в ближайшем будущем мы увидим появление новых инструментов для эффективной компиляции графов вычислений, которые позволят запускать полноценные LLM на мобильных устройствах.

🧠 Будущее: Hybrid AI и System 2 37:21

Джилей Хоу считает, что будущее за концепцией Hybrid AI — динамическим распределением задач между устройством и облаком. Edge-устройство берет на себя основные нагрузки, а облако подключается только в случае выполнения сложных, нестандартных запросов.

Кроме того, команда Qualcomm работает над направлением, которое Хоу называет «System 2» (отсылая к концепции Даниэля Канемана). Если «System 1» — это мгновенное распознавание образов, то «System 2» — это когнитивный процесс, включающий логическое рассуждение, планирование и рефлексию. Внедрение визуальной модальности в LLM позволит моделям «понимать» реальный мир через камеру, что даст им контекст для более глубокого диалога с пользователем.

💬 Цитаты

«Генеративный ИИ — это подкласс ИИ, где вы способны генерировать или регенерировать новый контент.»

Джилей Хоу 06:35

«Один бит [квантования] — это магия, которая добавляет нам около 4–6 дБ отношения сигнал-шум.»

Джилей Хоу 20:13
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Квантование (Quantization)
Процесс снижения точности представления чисел в модели ИИ для уменьшения ее размера и ускорения вычислений.
LVM (Language Vision Models)
Модели, работающие на стыке текста и визуальных образов, такие как Stable Diffusion.
Инференс (Inference)
Процесс запуска уже обученной модели для выполнения предсказаний или генерации контента.
Adaround
Продвинутый метод пост-тренировочного квантования весов модели, учитывающий их взаимосвязь.
📊 Цифры
🗓 Хронология
  1. 2018 Основание инициативы Qualcomm AI Research.
  2. 2019 Публикация работы по нейросетевому сжатию видео на конференции ICCV 2019.
  3. Февраль 2023 Демонстрация работы Stable Diffusion на мобильном устройстве на MWC.
⚖️ Другая сторона
Искусственный интеллект Qualcomm Stable Diffusion LLM Quantization Adaround