В мире искусственного интеллекта и анализа данных графы долгое время считались универсальным способом описания сложных связей. Однако на конференции NeurIPS в рамках воркшопа с ироничным названием «I Still Can't Believe It's Not Better» («Всё еще не могу поверить, что не стало лучше») профессор Северо-Восточного университета Тина Элиаси-Рад представила критический взгляд на то, как современные модели машинного обучения (ML) упрощают реальность, игнорируя физику и топологию порождающих процессов.
🧠 За пределами простых связей: гиперграфы и симпличиальные комплексы 4:47
Современное машинное обучение на графах чаще всего оперирует «простыми» структурами: есть узлы и ребра, соединяющие их попарно. Но по мнению Тины Элиаси-Рад, такой подход фатально ограничивает наше понимание сложных систем, таких как человеческий мозг или социальные институты .
Профессор выделяет три уровня представления связей:
- Простые графы: описывают только диадические (парные) отношения.
- Симпличиальные комплексы: позволяют описывать групповые взаимодействия (например, статью, написанную тремя авторами одновременно), но накладывают ограничение «замкнутости вниз» — если трое работают вместе, то любая пара из них тоже должна быть связана .
- Гиперграфы: наиболее гибкая структура, где ребро (гиперребро) может объединять любое количество узлов без дополнительных условий .
Элиаси-Рад подчеркивает важный математический нюанс: процесс перехода от сложной структуры к простой не является обратимым. Если преобразовать гиперграф в обычный граф, а затем попытаться восстановить его обратно, исходная информация о групповых связях будет безвозвратно утеряна .
📉 Почему «красивые» идеи не работают в ML 3:57
Название воркшопа «I Still Can't Believe It's Not Better» отражает разочарование исследователей: многие элегантные математические теории не дают ожидаемого прорыва в нейросетях. Элиаси-Рад считает, что основная причина — в отрыве ML-специалистов от природы данных .
Ключевые проблемы современной индустрии, по словам гостьи:
- Игнорирование генерирующего процесса: Исследователи берут датасет и задачу предсказания, не задумываясь, как эти данные возникли в реальности.
- Универсализм во вред: Огромное количество методов эмбеддингов (graph embeddings) разрабатываются на основе социальных сетей. Они отлично работают там, где много «треугольников» (друзья моих друзей — мои друзья), но полностью проваливаются в биологических сетях (взаимодействие белков), где структура связей принципиально иная .
- Отсутствие «юнит-тестов» на случайность: Многие алгоритмы показывают «высокую точность» на графах, которые по сути являются случайными (модели Эрдеша — Реньи). Если модель находит закономерности там, где связи случайны по определению, она не обучается, а подгоняет ответ под шум .
🛡️ Безопасность и этика: как обмануть сеть 17:11
Работа Элиаси-Рад охватывает не только чистую математику, но и вопросы безопасности и социальной справедливости. Одно из направлений её исследований — состязательное машинное обучение (adversarial ML) на графах .
Темы её текущих проектов включают:
- Информационное равенство: На примере LinkedIn обсуждается, как алгоритмы рекомендаций могут усугублять неравенство доступа к вакансиям. Элиаси-Рад упоминает классическую работу Марка Грановеттера о «силе слабых связей», подчеркивая, что для получения работы знакомства вне своего тесного круга важнее, чем близкие друзья .
- Скрытая диффузия: Как злоумышленник может внедрить «вирус» (информационный или биологический) в подгруппу социальной сети, не будучи обнаруженным системами мониторинга .
- Управление трафиком в киберсетях: Возможность изменить топологию сети так, чтобы пакеты данных от точки А к точке Б неизменно проходили через роутеры, контролируемые атакующим .
🧬 Топология как «отпечаток пальца» системы 21:45
Одним из самых амбициозных проектов лаборатории Элиаси-Рад стало применение фундаментальной топологии для сравнения графов. Её студент Лео Торрес использовал понятие «спектр длин» (length spectrum), чтобы создать своего рода уникальный хэш графа .
Суть метода заключается в анализе невозвратных матриц (non-backtracking matrices). В отличие от обычных матриц смежности, они учитывают пути, которые не возвращаются мгновенно в исходную точку. Это позволяет «услышать» форму графа через его циклы и дыры, игнорируя несущественные детали вроде «листьев» (тупиковых узлов) .
По словам Элиаси-Рад, ведущее собственное число (eigenvalue) такой матрицы гораздо точнее предсказывает скорость распространения эпидемии в сети, чем традиционные методы .
📋 Практические советы для дата-сайентистов 32:36
В завершение беседы Тина Элиаси-Рад дала рекомендации специалистам, работающим в индустрии. Она призывает не ограничиваться знанием алгоритмов, а глубоко изучать контекст (феноменологию) данных .
Чек-лист для проверки своей модели:
- Происхождение данных: Понимаете ли вы политический и социальный контекст сбора данных? (Профессор рекомендует проект «The Library of Missing Datasets») .
- Дискретизация времени: Не ломает ли разбиение данных «по дням» (понедельник, вторник и т.д.) реальные закономерности процесса? .
- Этический тест: Хотели бы вы, чтобы этот алгоритм был применен лично к вам? Личный опыт Элиаси-Рад показывает, что на этот вопрос почти никто из разработчиков ML не готов ответить «да» .
Финальный тезис профессора: «Всё в мире — это сеть, просто иногда вы её не видите. Если не видите — позвоните мне, и я покажу, какой граф скрывается за вашей системой» .