Йоханн Брехмер из Qualcomm: «Причинно-следственный ИИ решит проблему хрупкости нейросетей»

The TWIML AI Podcast 735 52 мин 4 мин 15.12.2022
Главное

В новом выпуске подкаста The TWIML AI ведущий Сэм Черрингтон беседует с Йоханном Брехмером, исследователем из Qualcomm AI Research (Амстердам). Основной темой обсуждения стала работа Брехмера и его коллег, представленная на конференции NeurIPS, посвященная слабо контролируемому обучению причинно-следственным представлениям (Weakly Supervised Causal Representation Learning).

🧠 От физики частиц к причинности в ИИ 0:00

Йоханн Брехмер начал свою научную карьеру как физик-ядерщик, занимаясь измерением свойств элементарных частиц, таких как бозон Хиггса, на Большом адронном коллайдере (CERN) . Работа с огромными массивами многомерных данных привела его к пониманию, что разработка статистических методов и алгоритмов машинного обучения привлекает его больше, чем теоретические вопросы физики. После перехода в индустрию он год занимался нейросетевым сжатием видео в Qualcomm, после чего присоединился к новой команде, сфокусированной на причинно-следственных связях (causality) .

По мнению Брехмера, современные системы ИИ, такие как ChatGPT, достигли невероятных успехов за счет масштабирования, но остаются «хрупкими» при изменении условий эксплуатации (проблема Sim-to-Real) . Причинно-следственный подход рассматривается им как фундаментальный фреймворк для создания более робастных моделей, способных рассуждать о действиях и изменениях, а не просто фиксировать корреляции в данных.

🔍 Суть метода: переход от пикселей к смыслам 4:32

Основная цель работы «Weakly Supervised Causal Representation Learning» — научить нейросеть извлекать высокоуровневые смыслы из низкоуровневых данных.

В качестве технической реализации используется вариационный автоэнкодер (VAE), где в латентном пространстве вместо стандартного гауссова распределения задается сложная причинно-следственная структура, обучаемая в процессе .

⛓️ Ограничения и математическая элегантность 9:42

Несмотря на сильные теоретические выводы, Йоханн признает наличие серьезных ограничений:

  1. Ацикличность: Модель предполагает, что причинно-следственные связи направлены только в одну сторону (светофор влияет на машину). В реальном мире, как в примере с падающими костями домино, объекты могут влиять друг на друга взаимно .
  2. Технические допущения: Для доказательства теоремы об идентифицируемости переменных пришлось использовать строгие математические рамки, которые иногда нарушаются в «дикой» природе .

Интересной деталью процесса разработки стало использование теории категорий. Коллеги Йоханна, Пим Дахан и Таку Кон, предложили использовать «струнные диаграммы» (string diagrams) — абстрактный графический язык — для доказательства теоремы . Брехмер признается, что поначалу скептически относился к такому подходу, но в итоге он позволил упростить и сделать доказательство гораздо более элегантным .

⚙️ Оптимизация и геометрическое обучение в Qualcomm 28:10

Помимо основной работы Брехмера, на NeurIPS были представлены исследования его коллег, касающиеся эффективности вычислений:

📉 Квантование и работа на устройствах (On-Device AI) 39:09

Брехмер подробно остановился на исследовании FP8-квантования (8-битные числа с плавающей запятой). Главный вопрос: что лучше — целые числа (INT8) или FP8?

🤖 Эксперименты: от робо-собак до автономного вождения 43:08

В завершение Йоханн упомянул несколько прикладных демо и воркшопов:

  1. Устранение «галлюцинаций» в имитационном обучении: В автономном вождении агент может ошибочно интерпретировать действия человека . Если водитель едет медленно из-за прогноза погоды (который не видит камера), ИИ может привыкнуть ездить медленно без причины. Группа Брехмера разработала алгоритм, позволяющий агенту собирать данные и корректировать свои выводы о скрытых факторах .
  2. Демо на мобильных чипах: На стенде Qualcomm были показаны возможности Snapdragon 888 и новейшего 8 Gen 2 . В частности:
    • Супер-разрешение, сжатое до 4-битных целых чисел.
    • Frame Exit: метод распознавания действий на видео, который прекращает анализ кадров, как только нейросеть обретает уверенность, экономя заряд батареи .
    • Teacher AI: обучение робота-собаки жестам на планшете буквально за несколько показов (few-shot learning) .

Йоханн резюмирует свою философию метафорой: «Иногда наука похожа на молоток (красивая теория), а иногда на гвоздь (реальная проблема). Настоящая магия случается, когда элегантная теория идеально попадает по реальному гвоздю» .

💬 Цитаты

«Большинство систем машинного обучения застряли на уровне описания корреляций, что делает их крайне хрупкими при изменении условий.»

Йоханн Брехмер 06:30

«Иногда у вас есть молоток (красивая теория), иногда — гвоздь (реальная задача). Настоящая красота в том, чтобы ударить этим молотком точно по гвоздю.»

Йоханн Брехмер 52:08
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Контрфактическое рассуждение
Способность модели рассуждать о том, что произошло бы, если бы одно из условий системы изменилось (вопрос «А что если?»).
Идентифицируемость
Математическая гарантия того, что из данных можно извлечь ровно ту структуру, которая их породила.
Квантование
Процесс перевода весов нейросети из высокоточных форматов (FP32) в более компактные (INT8, FP8) для ускорения работы.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Qualcomm AI Research Johann Brehmer Causal Representation Learning NeurIPS Quantization