Йоханн Брехмер из Qualcomm: «Причинно-следственный ИИ решит проблему хрупкости нейросетей»

В новом выпуске подкаста The TWIML AI ведущий Сэм Черрингтон беседует с Йоханном Брехмером, исследователем из Qualcomm AI Research (Амстердам). Основной темой обсуждения стала работа Брехмера и его коллег, представленная на конференции NeurIPS, посвященная слабо контролируемому обучению причинно-следственным представлениям (Weakly Supervised Causal Representation Learning).

🧠 От физики частиц к причинности в ИИ 0:00

Йоханн Брехмер начал свою научную карьеру как физик-ядерщик, занимаясь измерением свойств элементарных частиц, таких как бозон Хиггса, на Большом адронном коллайдере (CERN) . Работа с огромными массивами многомерных данных привела его к пониманию, что разработка статистических методов и алгоритмов машинного обучения привлекает его больше, чем теоретические вопросы физики. После перехода в индустрию он год занимался нейросетевым сжатием видео в Qualcomm, после чего присоединился к новой команде, сфокусированной на причинно-следственных связях (causality) .

По мнению Брехмера, современные системы ИИ, такие как ChatGPT, достигли невероятных успехов за счет масштабирования, но остаются «хрупкими» при изменении условий эксплуатации (проблема Sim-to-Real) . Причинно-следственный подход рассматривается им как фундаментальный фреймворк для создания более робастных моделей, способных рассуждать о действиях и изменениях, а не просто фиксировать корреляции в данных.

🔍 Суть метода: переход от пикселей к смыслам 4:32

Основная цель работы «Weakly Supervised Causal Representation Learning» — научить нейросеть извлекать высокоуровневые смыслы из низкоуровневых данных.

Обучение представлениям: Вместо того чтобы работать с миллионами пикселей, модель должна выделять ключевые переменные. Например, в сцене дорожного движения это положение машины, её скорость и состояние светофора .
Причинно-следственная модель: ИИ должен понимать, как эти переменные взаимодействуют. Зеленый свет светофора причиняет ускорение автомобиля, а не просто коррелирует с ним. Это позволяет отвечать на контрфактические вопросы: «Что произойдет, если светофор переключится?» .
Слабый контроль (Weak Supervision): Брехмер подчеркивает, что невозможно обучить такую модель полностью без учителя (unsupervised) на основе независимых данных. Его команда использует пары изображений «до» и «после» вмешательства (интервенции) . Например, на первом снимке светофор красный, на втором — зеленый, а машина начала движение.

В качестве технической реализации используется вариационный автоэнкодер (VAE), где в латентном пространстве вместо стандартного гауссова распределения задается сложная причинно-следственная структура, обучаемая в процессе .

⛓️ Ограничения и математическая элегантность 9:42

Несмотря на сильные теоретические выводы, Йоханн признает наличие серьезных ограничений:

Ацикличность: Модель предполагает, что причинно-следственные связи направлены только в одну сторону (светофор влияет на машину). В реальном мире, как в примере с падающими костями домино, объекты могут влиять друг на друга взаимно .
Технические допущения: Для доказательства теоремы об идентифицируемости переменных пришлось использовать строгие математические рамки, которые иногда нарушаются в «дикой» природе .

Интересной деталью процесса разработки стало использование теории категорий. Коллеги Йоханна, Пим Дахан и Таку Кон, предложили использовать «струнные диаграммы» (string diagrams) — абстрактный графический язык — для доказательства теоремы . Брехмер признается, что поначалу скептически относился к такому подходу, но в итоге он позволил упростить и сделать доказательство гораздо более элегантным .

⚙️ Оптимизация и геометрическое обучение в Qualcomm 28:10

Помимо основной работы Брехмера, на NeurIPS были представлены исследования его коллег, касающиеся эффективности вычислений:

Комбинаторная оптимизация: Группа Мукула Гаграни представила алгоритм TopPerformer для графов вычислений . Он помогает определить оптимальный порядок операций в нейросети так, чтобы минимизировать использование памяти и времени, соблюдая при этом зависимости между слоями.
Эквивариантное глубокое обучение: Работа Макса Веллинга и его команды касается использования симметрии в данных . Одним из практических приложений стала криоэлектронная микроскопия (Cryo-EM), где из шумных 2D-снимков молекул нужно восстановить 3D-структуру. С помощью групповой синхронизации и учета геометрических свойств инженерам удалось значительно точнее определять позы молекул .

📉 Квантование и работа на устройствах (On-Device AI) 39:09

Брехмер подробно остановился на исследовании FP8-квантования (8-битные числа с плавающей запятой). Главный вопрос: что лучше — целые числа (INT8) или FP8?

Вывод: Для больших моделей (например, трансформеров) при квантовании после обучения (post-training quantization) FP8 может быть эффективнее .
Аргумент за INT8: Если использовать обучение с учетом квантования (quantization-aware training), разница минимизируется. При этом оборудование для работы с целыми числами обычно потребляет меньше энергии . Резюме Брехмера: INT8 остается стандартом для мобильных чипов Qualcomm.

🤖 Эксперименты: от робо-собак до автономного вождения 43:08

В завершение Йоханн упомянул несколько прикладных демо и воркшопов:

Устранение «галлюцинаций» в имитационном обучении: В автономном вождении агент может ошибочно интерпретировать действия человека . Если водитель едет медленно из-за прогноза погоды (который не видит камера), ИИ может привыкнуть ездить медленно без причины. Группа Брехмера разработала алгоритм, позволяющий агенту собирать данные и корректировать свои выводы о скрытых факторах .
Демо на мобильных чипах: На стенде Qualcomm были показаны возможности Snapdragon 888 и новейшего 8 Gen 2 . В частности:
- Супер-разрешение, сжатое до 4-битных целых чисел.
- Frame Exit: метод распознавания действий на видео, который прекращает анализ кадров, как только нейросеть обретает уверенность, экономя заряд батареи .
- Teacher AI: обучение робота-собаки жестам на планшете буквально за несколько показов (few-shot learning) .

Йоханн резюмирует свою философию метафорой: «Иногда наука похожа на молоток (красивая теория), а иногда на гвоздь (реальная проблема). Настоящая магия случается, когда элегантная теория идеально попадает по реальному гвоздю» .