Майкл Бронштейн о Graph ML в Twitter: от поиска треугольников до борьбы с раком

The TWIML AI Podcast 866 56 мин 4 мин 28.07.2020
Главное

Майкл Бронштейн — профессор Имперского колледжа Лондона и руководитель отдела графового машинного обучения (Graph ML) в Twitter (ныне X) — один из ведущих мировых экспертов в области геометрического глубокого обучения. В беседе с Сэмом Чаррингтоном на подкасте TWIML AI он подводит итоги бурного развития индустрии за последние годы, объясняет, почему социальные сети и фармацевтика стали главными полигонами для тестирования графовых нейросетей (GNN), и раскрывает технические вызовы, стоящие перед инженерами при работе с данными масштаба сотен миллионов пользователей.

📈 Революция графовых нейросетей: от ниши до мейнстрима 1:17

За последние несколько лет область глубокого обучения на графах прошла путь от экзотического направления до одной из самых популярных тем на крупнейших ИИ-конференциях, таких как нейросетевой форум ICLR . По словам Бронштейна, это не была «революция одного дня», подобная появлению AlexNet в компьютерном зрении, а скорее стремительная эволюция, вызванная совпадением нескольких факторов :

Графы — это универсальный математический язык для описания отношений. Майкл подчеркивает, что их можно использовать в любой области: от физики элементарных частиц до анализа социальных взаимодействий и структуры белков .

🐦 Вызовы Twitter: масштаб, динамика и задержки 13:24

Работа в Twitter поставила перед командой Бронштейна задачи, которые редко встречаются в академической среде. Если в статьях часто фигурируют «маленькие» графы цитирований на 5–10 тысяч узлов, то в Twitter речь идет о сотнях миллионов узлов и миллиардах связей .

Основные сложности промышленного применения GNN по мнению гостя:

  1. Масштабируемость: Необходимость обрабатывать огромные объемы данных без потери эффективности.
  2. Задержка (Latency): В продакшене системы должны выдавать результат мгновенно, что накладывает ограничения на архитектуру сетей .
  3. Динамическая природа: Социальная сеть — это не статичная картинка, а асинхронный поток событий. Пользователи подписываются друг на друга, твитят и удаляют аккаунты каждую секунду .

Команда Бронштейна разработала Temporal Graph Networks (TGN) — фреймворк для обучения на графах с непрерывным временем . К каждому узлу прикрепляется «память» (состояние), которая аккумулирует историю взаимодействий и обновляется при каждом новом событии . Это критически важно для систем рекомендаций и обнаружения злоумышленников.

🧠 Экспрессивность и «тест на раскраску» графов 22:12

Одной из самых глубоких теоретических тем обсуждения стал вопрос «экспрессивной мощности» нейросетей — способности модели различать разные структуры. Бронштейн объясняет, что стандартные графовые нейросети (Message Passing Neural Networks) ограничены в своих возможностях.

Их предел — это тест Вайсфейлера-Лесмана (WL), который используется в теории графов для проверки изоморфизма (тождественности) структур . Бронштейн указывает на «разочаровывающий факт»: стандартные GNN не способны распознать даже простые треугольники в графе . Между тем треугольники — это ключевой мотив в социальных связях («друг моего друга — мой друг»).

Для решения этой проблемы Бронштейн предлагает:

🧬 ИИ в медицине: белки как «молекулы жизни» 48:49

Майкл Бронштейн убежден, что главным «киллер-фичей» (убойным приложением) графовых нейросетей в ближайшие 5–10 лет станет здравоохранение и биология .

🔮 Будущее: геометрическое обучение 11:40

Бронштейн подчеркивает, что мы уходим от восприятия данных как плоских сеток (как в изображениях). Будущее за «метрической геометрией» и обучением на многообразиях (manifold learning) . Он отмечает ироничный поворот в науке: компьютерное зрение долгое время считало 3D-данные уделом графики, но сегодня лучшие работы в CV связаны именно с геометрией и дискретными представлениями форм .

Для Бронштейна успех области будет означать превращение GNN в такой же стандартный инструмент индустрии, каким сегодня являются обычные нейросети для распознавания лиц или перевода текста .

💬 Цитаты

«Белки — это не метафора «молекул жизни», они буквально везде: от метаболизма до защиты от патогенов.»

Майкл Бронштейн 51:42

«Поиск лекарства — это выбор из 10 в 60-й степени молекул. Это больше, чем количество атомов во Вселенной.»

Майкл Бронштейн 50:08
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Изоморфизм графов
Свойство двух графов быть структурно идентичными, несмотря на разный порядок узлов.
Тест Вайсфейлера-Лесмана (WL)
Алгоритм для проверки того, являются ли два графа одинаковыми.
Временные графовые сети (TGN)
Нейросети, способные работать с графами, которые меняются в реальном времени.
Клика
Подмножество узлов графа, где каждый узел напрямую соединен с каждым другим в этой группе.
📊 Цифры
🗓 Хронология
  1. декабрь 2017 Майкл Бронштейн и Джон Бруна представляют туториал по GNN на конференции NeurIPS.
  2. апрель 2018 Основание компании Fabula AI.
  3. 2019 Twitter покупает компанию Fabula AI, Бронштейн возглавляет Graph ML направление.
  4. 2020 Публикация работы по Temporal Graph Networks (TGN) и активное исследование борьбы с COVID-19.
⚖️ Другая сторона
Искусственный интеллект Graph Neural Networks Michael Bronstein Twitter Geometric Deep Learning Drug Discovery