# Майкл Бронштейн о Graph ML в Twitter: от поиска треугольников до борьбы с раком

Источник: https://www.youtube.com/watch?v=w9cxhumvO40
Канал: The TWIML AI Podcast
Опубликовано: 28.07.2020

---

Майкл Бронштейн — профессор Имперского колледжа Лондона и руководитель отдела графового машинного обучения (Graph ML) в Twitter (ныне X) — один из ведущих мировых экспертов в области геометрического глубокого обучения. В беседе с Сэмом Чаррингтоном на подкасте TWIML AI он подводит итоги бурного развития индустрии за последние годы, объясняет, почему социальные сети и фармацевтика стали главными полигонами для тестирования графовых нейросетей (GNN), и раскрывает технические вызовы, стоящие перед инженерами при работе с данными масштаба сотен миллионов пользователей.

## 📈 Революция графовых нейросетей: от ниши до мейнстрима
[[JUMP:01:17]]

За последние несколько лет область глубокого обучения на графах прошла путь от экзотического направления до одной из самых популярных тем на крупнейших ИИ-конференциях, таких как нейросетевой форум ICLR [02:09]. По словам Бронштейна, это не была «революция одного дня», подобная появлению AlexNet в компьютерном зрении, а скорее стремительная эволюция, вызванная совпадением нескольких факторов [03:29]:

*   **Доступность данных:** Появление специализированных бенчмарков, таких как Open Graph Benchmark (OGB).
*   **Программная среда:** Разработка библиотек PyTorch Geometric и Deep Graph Library (DGL).
*   **Аппаратное обеспечение:** Использование мощностей GPU, хотя Бронштейн признает, что для графовых структур они не всегда идеальны [04:59].

Графы — это универсальный математический язык для описания отношений. Майкл подчеркивает, что их можно использовать в любой области: от физики элементарных частиц до анализа социальных взаимодействий и структуры белков [02:35].

## 🐦 Вызовы Twitter: масштаб, динамика и задержки
[[JUMP:13:24]]

Работа в Twitter поставила перед командой Бронштейна задачи, которые редко встречаются в академической среде. Если в статьях часто фигурируют «маленькие» графы цитирований на 5–10 тысяч узлов, то в Twitter речь идет о сотнях миллионов узлов и миллиардах связей [05:37].

Основные сложности промышленного применения GNN по мнению гостя:

1.  **Масштабируемость:** Необходимость обрабатывать огромные объемы данных без потери эффективности.
2.  **Задержка (Latency):** В продакшене системы должны выдавать результат мгновенно, что накладывает ограничения на архитектуру сетей [14:55].
3.  **Динамическая природа:** Социальная сеть — это не статичная картинка, а асинхронный поток событий. Пользователи подписываются друг на друга, твитят и удаляют аккаунты каждую секунду [15:20].

Команда Бронштейна разработала **Temporal Graph Networks (TGN)** — фреймворк для обучения на графах с непрерывным временем [17:32]. К каждому узлу прикрепляется «память» (состояние), которая аккумулирует историю взаимодействий и обновляется при каждом новом событии [18:39]. Это критически важно для систем рекомендаций и обнаружения злоумышленников.

## 🧠 Экспрессивность и «тест на раскраску» графов
[[JUMP:22:12]]

Одной из самых глубоких теоретических тем обсуждения стал вопрос «экспрессивной мощности» нейросетей — способности модели различать разные структуры. Бронштейн объясняет, что стандартные графовые нейросети (Message Passing Neural Networks) ограничены в своих возможностях.

Их предел — это **тест Вайсфейлера-Лесмана (WL)**, который используется в теории графов для проверки изоморфизма (тождественности) структур [23:44]. Бронштейн указывает на «разочаровывающий факт»: стандартные GNN не способны распознать даже простые треугольники в графе [26:05]. Между тем треугольники — это ключевой мотив в социальных связях («друг моего друга — мой друг»).

Для решения этой проблемы Бронштейн предлагает:

*   Использование иерархии тестов WL более высокого порядка, хотя они требуют огромных вычислительных мощностей (квадратичная сложность) [27:36].
*   **Graph Substructure Networks (GSN):** Подход, при котором сеть заранее получает информацию о наличии подструктур (кликов, циклов, путей), что резко повышает её «интеллект» без потери линейной скорости работы [28:16].

## 🧬 ИИ в медицине: белки как «молекулы жизни»
[[JUMP:48:49]]

Майкл Бронштейн убежден, что главным «киллер-фичей» (убойным приложением) графовых нейросетей в ближайшие 5–10 лет станет здравоохранение и биология [49:02].

*   **Дизайн лекарств:** Поиск новых молекул похож на поиск иголки в стоге сена. Существует около $10^{60}$ потенциально синтезируемых молекул среднего размера — это больше, чем атомов во Вселенной [50:08]. GNN позволяют проводить виртуальный скрининг, отсеивая бесперспективные варианты в разы быстрее традиционных симуляций [50:34].
*   **Иммунотерапия рака:** Бронштейн сотрудничает с лабораторией Бруно Корреа (EPFL) для проектирования белков-биндеров. Эти белки должны блокировать механизмы, с помощью которых опухоль «обманывает» иммунную систему, заставляя Т-клетки принимать рак за здоровую ткань [52:51].
*   **Борьба с COVID-19:** В Имперском колледже Майкл участвует в проекте по поиску синергетических комбинаций уже существующих лекарств. Цель — с помощью графов предсказать, как пара известных препаратов может вместе эффективно блокировать вирусные белки [55:38].

## 🔮 Будущее: геометрическое обучение
[[JUMP:11:40]]

Бронштейн подчеркивает, что мы уходим от восприятия данных как плоских сеток (как в изображениях). Будущее за «метрической геометрией» и обучением на многообразиях (manifold learning) [36:14]. Он отмечает ироничный поворот в науке: компьютерное зрение долгое время считало 3D-данные уделом графики, но сегодня лучшие работы в CV связаны именно с геометрией и дискретными представлениями форм [12:30].

Для Бронштейна успех области будет означать превращение GNN в такой же стандартный инструмент индустрии, каким сегодня являются обычные нейросети для распознавания лиц или перевода текста [48:23].