Зак Джост о парадоксе GNN: «Простое сглаживание часто побеждает сложные нейросети»

Machine Learning Street Talk 9,9 тыс. 1 ч 2 мин 4 мин 25.03.2022
Главное

В новом выпуске Machine Learning Street Talk гостем стал Зак Джост (Zak Jost), исследователь из AWS и эксперт в области графовых нейронных сетей (GNN). В беседе с ведущим Тимом Скарфом он подробно разобрал математическую природу сверток на графах, проблему «бутылочного горлышка» выразительности моделей и то, почему современные сложные архитектуры иногда проигрывают классическим методам сглаживания данных.

🧬 Геометрическое глубокое обучение и основы симметрии 1:03

Фундаментом обсуждения стала концепция Geometric Deep Learning, формализованная Майклом Бронштейном (Michael Bronstein) и его коллегами. Зак Джост объясняет, что эта концепция служит «чертежом» для большинства современных архитектур: от CNN и RNN до трансформеров .

Ключевое различие, которое необходимо понимать для работы с пространственными данными, — это разница между эквивариантностью и инвариантностью:

По словам Зака Джоста, использование этих симметрий делает архитектуры более «параметрически эффективными». Вместо того чтобы обучаться распознавать специфический паттерн в каждой точке пространства отдельно, модель использует общие фильтры, что значительно сужает пространство гипотез и облегчает оптимизацию .

📉 Математика графовых сверток: от Фурье до полиномов Чебышева 11:02

Основная сложность GNN в сравнении с обычными сверточными сетями (CNN) заключается в нестабильности топологии. В сетке пикселей у каждого узла фиксированное количество соседей, а в графе их число варьируется.

Зак Джост описывает эволюцию графовых сверток через спектральную теорию:

  1. Частотная область: изначально свертка на графе определялась через преобразование Фурье. Это требовало поиска собственных векторов лапласиана графа .
  2. Вычислительная сложность: вычисление собственных векторов — операция сложностью $O(n^3)$. Для графов с миллиардами узлов это невозможно .
  3. Потеря локальности: каждый собственный вектор зависит от всех узлов графа, что лишает модель локальности — свойства, за которое мы любим CNN .

Решением стал переход к пространственным методам (message passing) через аппроксимацию. Ученые (в частности, Томас Кипф) предложили использовать полиномиальное разложение (например, полиномы Чебышева) от матрицы смежности $A$ или лапласиана . Умножение вектора признаков на матрицу смежности — это и есть акт передачи сообщения (message passing) от ближайших соседей .

Современные GNN (такие как GCN) используют аппроксимацию первого порядка. Это ограничивает влияние информации только ближайшим окружением, что делает вычисления линейными и решат проблему нелокальности .

⚠️ Проблемы глубоких GNN: Оверсмузинг и Оверсквошинг 26:39

В отличие от классических нейросетей, простое увеличение количества слоев в GNN часто ведет к деградации модели. Зак Джост выделяет две фундаментальные проблемы:

В качестве решения обсуждаются методы Graph Rewiring (перестройка графа). Исследователи, включая Бронштейна, предлагают добавлять или удалять ребра на основе кривизны Риччи (Ricci curvature), чтобы оптимизировать потоки информации и убрать «бутылочные горлышки» .

🧪 Диффузионный взгляд и «необъяснимая эффективность» простых методов 33:17

Зак Джост отмечает влияние физики на deep learning. GNN можно рассматривать как дискретизированное решение уравнения диффузии тепла . Эммануэль Росси (Emanuel Rossi) в своей недавней работе показал, что распространение признаков по графу работает аналогично решению дифференциальных уравнений в частных производных с граничными условиями (где существующие признаки — это границы, а отсутствующие — искомые значения) .

Удивительным фактом для индустрии стали результаты работы «Correct and Smooth» . Простой алгоритм обошел сложные GNN на многих бенчмарках:

  1. Обучается обычная модель (например, XGBoost) только на признаках узла.
  2. Ошибки (residual) распространяются по графу методом Label Propagation.
  3. Итоговый прогноз корректируется с учетом этих сглаженных ошибок.

По мнению Зака Джоста, это ставит вопрос: действительно ли нам нужна высокая выразительная мощность GNN, или в большинстве реальных задач достаточно простого локального сглаживания (фильтра низких частот)?

🧠 Тест Вайсфейлера — Лемана и предел выразительности 48:28

Разговор коснулся теоретического предела GNN, который связан с 1-WL тестом (Weisfeiler-Lehman) на изоморфизм графов . Стандартные графовые сети не могут различить графы, которые не различает 1-WL тест (например, кольцо из 6 узлов против двух треугольников по 3 узла) .

Ключ к мощности GNN — в функции агрегации:

Зак упоминает архитектуру GIN (Graph Isomorphism Networks), которая математически гарантирует мощность на уровне 1-WL теста за счет использования суммирования и глубоких MLP .

📚 Образовательный проект Зака Джоста 58:16

Последние полгода Зак Джост посвятил созданию курса по Graph Neural Networks, который сочетает теорию (преобразования Фурье, спектральные методы) и практику (решение задач классификации узлов, предсказания связей и классификации целых графов) . Курс проводится в формате когорт, что, по мнению Зака, критически важно для доведения обучения до конца благодаря дедлайнам и комьюнити в Discord .

💬 Цитаты

«GNN — это просто дифференцируемая версия теста Вайсфейлера — Лемана.»

Зак Джост 52:17

«Комбинирование локальной информации и её сглаживание — вот откуда берется почти вся польза графовых методов.»

Зак Джост 41:55
👥 Спикеры
📚 Упомянутые книги
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Message Passing
Процесс обновления признаков узла путем сбора и агрегации векторов его соседей.
Isomorphic Graphs
Графы, которые имеют одинаковую структуру связей, несмотря на разное визуальное представление или нумерацию узлов.
Injective function
Функция, которая сопоставляет разным элементам входного множества разные элементы выходного множества (без коллизий).
📊 Цифры
🗓 Хронология
  1. Апрель 2022 Запуск первой когорты курса Зака Джоста по графовым нейросетям.
⚖️ Другая сторона
Искусственный интеллект Graph Neural Networks Geometric Deep Learning Zak Jost Message Passing Weisfeiler-Lehman