# Йоханн Брехмер из Qualcomm: «Причинно-следственный ИИ решит проблему хрупкости нейросетей»

Источник: https://www.youtube.com/watch?v=5dRuV0o9cAw
Канал: The TWIML AI Podcast
Опубликовано: 15.12.2022

---

В новом выпуске подкаста **The TWIML AI** ведущий **Сэм Черрингтон** беседует с **Йоханном Брехмером**, исследователем из **Qualcomm AI Research** (Амстердам). Основной темой обсуждения стала работа Брехмера и его коллег, представленная на конференции **NeurIPS**, посвященная слабо контролируемому обучению причинно-следственным представлениям (Weakly Supervised Causal Representation Learning).

## 🧠 От физики частиц к причинности в ИИ
[[JUMP:00:00]]

Йоханн Брехмер начал свою научную карьеру как физик-ядерщик, занимаясь измерением свойств элементарных частиц, таких как бозон Хиггса, на Большом адронном коллайдере (CERN) [00:39]. Работа с огромными массивами многомерных данных привела его к пониманию, что разработка статистических методов и алгоритмов машинного обучения привлекает его больше, чем теоретические вопросы физики. После перехода в индустрию он год занимался нейросетевым сжатием видео в Qualcomm, после чего присоединился к новой команде, сфокусированной на причинно-следственных связях (causality) [01:43].

По мнению Брехмера, современные системы ИИ, такие как ChatGPT, достигли невероятных успехов за счет масштабирования, но остаются «хрупкими» при изменении условий эксплуатации (проблема Sim-to-Real) [02:59]. Причинно-следственный подход рассматривается им как фундаментальный фреймворк для создания более робастных моделей, способных рассуждать о действиях и изменениях, а не просто фиксировать корреляции в данных.

## 🔍 Суть метода: переход от пикселей к смыслам
[[JUMP:04:32]]

Основная цель работы «Weakly Supervised Causal Representation Learning» — научить нейросеть извлекать высокоуровневые смыслы из низкоуровневых данных.

*   **Обучение представлениям:** Вместо того чтобы работать с миллионами пикселей, модель должна выделять ключевые переменные. Например, в сцене дорожного движения это положение машины, её скорость и состояние светофора [05:12].
*   **Причинно-следственная модель:** ИИ должен понимать, как эти переменные взаимодействуют. Зеленый свет светофора *причиняет* ускорение автомобиля, а не просто коррелирует с ним. Это позволяет отвечать на контрфактические вопросы: «Что произойдет, если светофор переключится?» [06:03].
*   **Слабый контроль (Weak Supervision):** Брехмер подчеркивает, что невозможно обучить такую модель полностью без учителя (unsupervised) на основе независимых данных. Его команда использует пары изображений «до» и «после» вмешательства (интервенции) [08:00]. Например, на первом снимке светофор красный, на втором — зеленый, а машина начала движение.

В качестве технической реализации используется вариационный автоэнкодер (VAE), где в латентном пространстве вместо стандартного гауссова распределения задается сложная причинно-следственная структура, обучаемая в процессе [12:44].

## ⛓️ Ограничения и математическая элегантность
[[JUMP:09:42]]

Несмотря на сильные теоретические выводы, Йоханн признает наличие серьезных ограничений:

1.  **Ацикличность:** Модель предполагает, что причинно-следственные связи направлены только в одну сторону (светофор влияет на машину). В реальном мире, как в примере с падающими костями домино, объекты могут влиять друг на друга взаимно [10:35].
2.  **Технические допущения:** Для доказательства теоремы об идентифицируемости переменных пришлось использовать строгие математические рамки, которые иногда нарушаются в «дикой» природе [11:53].

Интересной деталью процесса разработки стало использование **теории категорий**. Коллеги Йоханна, Пим Дахан и Таку Кон, предложили использовать «струнные диаграммы» (string diagrams) — абстрактный графический язык — для доказательства теоремы [17:54]. Брехмер признается, что поначалу скептически относился к такому подходу, но в итоге он позволил упростить и сделать доказательство гораздо более элегантным [18:34].

## ⚙️ Оптимизация и геометрическое обучение в Qualcomm
[[JUMP:28:10]]

Помимо основной работы Брехмера, на NeurIPS были представлены исследования его коллег, касающиеся эффективности вычислений:

*   **Комбинаторная оптимизация:** Группа Мукула Гаграни представила алгоритм **TopPerformer** для графов вычислений [29:43]. Он помогает определить оптимальный порядок операций в нейросети так, чтобы минимизировать использование памяти и времени, соблюдая при этом зависимости между слоями.
*   **Эквивариантное глубокое обучение:** Работа Макса Веллинга и его команды касается использования симметрии в данных [33:25]. Одним из практических приложений стала криоэлектронная микроскопия (Cryo-EM), где из шумных 2D-снимков молекул нужно восстановить 3D-структуру. С помощью групповой синхронизации и учета геометрических свойств инженерам удалось значительно точнее определять позы молекул [34:58].

## 📉 Квантование и работа на устройствах (On-Device AI)
[[JUMP:39:09]]

Брехмер подробно остановился на исследовании **FP8-квантования** (8-битные числа с плавающей запятой). Главный вопрос: что лучше — целые числа (INT8) или FP8?

*   **Вывод:** Для больших моделей (например, трансформеров) при квантовании после обучения (post-training quantization) FP8 может быть эффективнее [40:51].
*   **Аргумент за INT8:** Если использовать обучение с учетом квантования (quantization-aware training), разница минимизируется. При этом оборудование для работы с целыми числами обычно потребляет меньше энергии [41:29]. Резюме Брехмера: INT8 остается стандартом для мобильных чипов Qualcomm.

## 🤖 Эксперименты: от робо-собак до автономного вождения
[[JUMP:43:08]]

В завершение Йоханн упомянул несколько прикладных демо и воркшопов:

1.  **Устранение «галлюцинаций» в имитационном обучении:** В автономном вождении агент может ошибочно интерпретировать действия человека [43:54]. Если водитель едет медленно из-за прогноза погоды (который не видит камера), ИИ может привыкнуть ездить медленно без причины. Группа Брехмера разработала алгоритм, позволяющий агенту собирать данные и корректировать свои выводы о скрытых факторах [45:39].
2.  **Демо на мобильных чипах:** На стенде Qualcomm были показаны возможности **Snapdragon 888** и новейшего **8 Gen 2** [49:34]. В частности:
    *   Супер-разрешение, сжатое до 4-битных целых чисел.
    *   **Frame Exit:** метод распознавания действий на видео, который прекращает анализ кадров, как только нейросеть обретает уверенность, экономя заряд батареи [47:37].
    *   **Teacher AI:** обучение робота-собаки жестам на планшете буквально за несколько показов (few-shot learning) [48:04].

Йоханн резюмирует свою философию метафорой: «Иногда наука похожа на молоток (красивая теория), а иногда на гвоздь (реальная проблема). Настоящая магия случается, когда элегантная теория идеально попадает по реальному гвоздю» [52:08].