# Как графовые нейросети ищут новые антибиотики и расшифровывают язык кашалотов

Источник: https://www.youtube.com/watch?v=D4gnscAYlXc
Канал: The TWIML AI Podcast
Опубликовано: 01.02.2021

---

В новом выпуске подкаста TWIML AI ведущий Сэм Чаррингтон обсуждает итоги 2020 года и будущие тренды в области машинного обучения с Майклом Бронштейном — профессором Имперского колледжа Лондона и руководителем отдела графового машинного обучения в Twitter. Главной темой беседы стал стремительный переход графовых нейронных сетей (GNN) из теоретической ниши в статус мощного инструмента для решения фундаментальных задач — от синтеза антибиотиков до расшифровки языка кашалотов.

## 🚀 Масштабные сдвиги: пандемия, этика и GPT-3
[[JUMP:01:21]]

Майкл Бронштейн отмечает, что 2020 год стал переломным для научного сообщества не только из-за пандемии, которая заставила конференции и компании перейти в онлайн-формат [01:34], но и из-за изменения акцентов в исследованиях. 

Ключевые события года в широком ML:

*   **Борьба с COVID-19:** Моделирование распространения вируса на основе данных социальных сетей и приложений для трекинга выявило как потенциал ИИ, так и этические риски, связанные с приватностью [05:54].
*   **Этика и дискуссии:** Вопросы этических последствий алгоритмических решений перешли из разряда «математических нюансов» в плоскость горячих социальных споров. Бронштейн подчеркивает, что порой дискуссии в академической среде становились излишне агрессивными, но само их наличие критически важно [03:07].
*   **Феномен GPT-3:** Появление модели от OpenAI стало вехой в NLP. Несмотря на впечатляющую способность генерировать человекоподобный текст, Бронштейн разделяет скептицизм Гэри Маркуса: по мнению гостя, модель «не имеет ни малейшего понятия о языке» и лишь выдает правдоподобные результаты без реального понимания сути [04:26]. Пять лет назад Бронштейн не мог представить, что такой прогресс будет возможен так скоро [04:51].

## 🔷 Геометрическое обучение и «бесконечное» разрешение
[[JUMP:07:42]]

В области компьютерного зрения (Computer Vision) наблюдается ренессанс геометрии. Если раньше сообщество относилось к геометрическим методам настороженно, то теперь они доминируют на главных конференциях, таких как CVPR [08:08].

Особый интерес Бронштейна вызывают **неявные нейронные представления (implicit neural representations)** [08:34]:

*   **Суть:** Вместо дискретных сеток (пикселей в картинках или вокселей в 3D) сигнал параметризуется как непрерывная функция координат, аппроксимируемая нейросетью [09:16].
*   **Преимущества:** Такие представления обладают фактически «бесконечным» разрешением. Объем памяти, занимаемой моделью, не зависит от количества сэмплов, которые мы хотим извлечь [10:10].
*   **Перспектива:** Главный вызов сейчас — переосмысление классических операций, таких как свертка, для работы с этими непрерывными функциями [10:36].

## 🕸️ Прорыв в графовых нейронных сетях (GNN)
[[JUMP:11:42]]

Графовое машинное обучение стало одной из самых динамичных тем года. Майкл выделяет несколько ключевых направлений развития:

### 1. Алгоритмическое мышление (Neural Execution)
Исследование Питера Величковича из DeepMind показало, что GNN могут обучаться выполнять шаги классических алгоритмов (например, алгоритма Дейкстры для поиска кратчайшего пути) [13:24]. По мнению Бронштейна, это путь к объяснимому ИИ [15:13]. Важно, что нейросети способны на «трансфер» знаний: обучение поиску кратчайшего пути ускоряется, если модель одновременно учится определять достижимость узлов [14:19].

### 2. Проблема «узкого горлышка» и глубина сетей
Бронштейн упоминает работу израильских исследователей о феномене **bottleneck** [17:39]. В стандартных GNN информация от соседей «сжимается» в один вектор, что мешает обработке дальних связей в графах типа «тесный мир».

*   Решение: перестройка (rewiring) графа, например, добавление полносвязного слоя [18:56].
*   Парадокс глубины: в отличие от обычных CNN, где 100 слоев — норма, в GNN часто используют всего 2–3 слоя [19:36]. Бронштейн считает провокационным тезис о том, что большая глубина в графах может быть вредна, так как мы до сих пор не до конца понимаем, что именно GNN не могут вычислить [20:15].

## 🧪 Революция в медицине: антибиотики и белки
[[JUMP:28:05]]

Наибольшее влияние GNN в 2020 году оказали на молекулярном уровне.

*   **Галицин (Halicin):** Группа Джима Коллинза из MIT использовала GNN для поиска новых антибиотиков. Модель, обученная всего на 2000 молекул, обнаружила в библиотеке существующих лекарств молекулу, способную убивать устойчивые к лекарствам бактерии [31:21]. Это первый случай, когда ИИ реально расширил арсенал борьбы с патогенами [35:01].
*   **AlphaFold 2:** Результат DeepMind в соревновании CASP по предсказанию 3D-структуры белка Бронштейн называет «моментом ImageNet» в биологии [40:02]. Точность достигла 1.5 ангстрем, что невероятно для вычислительных методов. Бронштейн предполагает, что Google может создать на базе DeepMind собственную фармацевтическую компанию, учитывая эти возможности [44:34].
*   **Проект MaSIF:** Майкл представил свою разработку — геометрическое обучение на поверхностях белков. В отличие от AlphaFold, система MaSIF работает на основе 3D-формы (мешей), что позволяет проектировать белки *de novo* («с нуля»), у которых нет эволюционной истории [45:53]. Новая версия системы работает в 20 раз быстрее и обучается напрямую на облаках точек атомов [49:52].

## 📈 Индустрия и новые рынки
[[JUMP:55:24]]

Графовые технологии активно внедряются гигантами:

*   **Twitter:** Использует GNN для систем рекомендаций; в 2019 году компания купила стартап Бронштейна Fabula AI [1:01:07].
*   **Google Maps:** Улучшили предсказание трафика с помощью графовых моделей [59:47].
*   **Uber Eats:** Применяет GNN для персонализации рекомендаций еды [1:00:15].

Среди интересных стартапов гость выделяет **Ariel AI**, который создает 3D-аватары людей в реальном времени на обычных смартфонах [1:03:01]. По словам Бронштейна, это доказывает: современный ИИ (в частности, геометрический DL) стал настолько мощным, что ему больше не нужны специальные 3D-сенсоры для реконструкции облика [1:05:13].

## 🐋 Будущее: кашалоты и физика частиц
[[JUMP:10:52]]

В 2021 году Майкл прогнозирует рост интереса к:

1.  **Топологическому анализу данных (TDA):** Совмещение топологии и глубокого обучения [1:09:23].
2.  **Физике частиц:** Использование GNN в ЦЕРН для детектирования редких событий при столкновении протонов в Большом адронном коллайдере [1:08:18].
3.  **Project CETI:** Проект по расшифровке языка кашалотов. Ученые создают «Whale Twitter» — базу данных коммуникации этих животных, чтобы применить к ним методы NLP, используемые для человеческих языков [1:13:55].

Бронштейн подчеркивает: время теоретических спекуляций вокруг графов прошло. Теперь критически важно партнерство между разработчиками ИИ и экспертами в областях биологии и химии [1:06:46].