# Тина Элиаси-Рад: «Машинное обучение часто игнорирует физику реальных процессов»

Источник: https://www.youtube.com/watch?v=cETbbClFlYY
Канал: The TWIML AI Podcast
Опубликовано: 23.12.2021

---

В мире искусственного интеллекта и анализа данных графы долгое время считались универсальным способом описания сложных связей. Однако на конференции NeurIPS в рамках воркшопа с ироничным названием «I Still Can't Believe It's Not Better» («Всё еще не могу поверить, что не стало лучше») профессор Северо-Восточного университета Тина Элиаси-Рад представила критический взгляд на то, как современные модели машинного обучения (ML) упрощают реальность, игнорируя физику и топологию порождающих процессов.

## 🧠 За пределами простых связей: гиперграфы и симпличиальные комплексы
[[JUMP:04:47]]

Современное машинное обучение на графах чаще всего оперирует «простыми» структурами: есть узлы и ребра, соединяющие их попарно. Но по мнению Тины Элиаси-Рад, такой подход фатально ограничивает наше понимание сложных систем, таких как человеческий мозг или социальные институты [05:27]. 

Профессор выделяет три уровня представления связей:

*   **Простые графы:** описывают только диадические (парные) отношения.
*   **Симпличиальные комплексы:** позволяют описывать групповые взаимодействия (например, статью, написанную тремя авторами одновременно), но накладывают ограничение «замкнутости вниз» — если трое работают вместе, то любая пара из них тоже должна быть связана [06:06].
*   **Гиперграфы:** наиболее гибкая структура, где ребро (гиперребро) может объединять любое количество узлов без дополнительных условий [06:33].

Элиаси-Рад подчеркивает важный математический нюанс: процесс перехода от сложной структуры к простой не является обратимым. Если преобразовать гиперграф в обычный граф, а затем попытаться восстановить его обратно, исходная информация о групповых связях будет безвозвратно утеряна [08:22].

## 📉 Почему «красивые» идеи не работают в ML
[[JUMP:03:57]]

Название воркшопа «I Still Can't Believe It's Not Better» отражает разочарование исследователей: многие элегантные математические теории не дают ожидаемого прорыва в нейросетях. Элиаси-Рад считает, что основная причина — в отрыве ML-специалистов от природы данных [09:14].

Ключевые проблемы современной индустрии, по словам гостьи:

1.  **Игнорирование генерирующего процесса:** Исследователи берут датасет и задачу предсказания, не задумываясь, как эти данные возникли в реальности.
2.  **Универсализм во вред:** Огромное количество методов эмбеддингов (graph embeddings) разрабатываются на основе социальных сетей. Они отлично работают там, где много «треугольников» (друзья моих друзей — мои друзья), но полностью проваливаются в биологических сетях (взаимодействие белков), где структура связей принципиально иная [12:07].
3.  **Отсутствие «юнит-тестов» на случайность:** Многие алгоритмы показывают «высокую точность» на графах, которые по сути являются случайными (модели Эрдеша — Реньи). Если модель находит закономерности там, где связи случайны по определению, она не обучается, а подгоняет ответ под шум [13:02].

## 🛡️ Безопасность и этика: как обмануть сеть
[[JUMP:17:11]]

Работа Элиаси-Рад охватывает не только чистую математику, но и вопросы безопасности и социальной справедливости. Одно из направлений её исследований — состязательное машинное обучение (adversarial ML) на графах [20:10].

Темы её текущих проектов включают:

*   **Информационное равенство:** На примере LinkedIn обсуждается, как алгоритмы рекомендаций могут усугублять неравенство доступа к вакансиям. Элиаси-Рад упоминает классическую работу Марка Грановеттера о «силе слабых связей», подчеркивая, что для получения работы знакомства вне своего тесного круга важнее, чем близкие друзья [19:31].
*   **Скрытая диффузия:** Как злоумышленник может внедрить «вирус» (информационный или биологический) в подгруппу социальной сети, не будучи обнаруженным системами мониторинга [20:22].
*   **Управление трафиком в киберсетях:** Возможность изменить топологию сети так, чтобы пакеты данных от точки А к точке Б неизменно проходили через роутеры, контролируемые атакующим [20:48].

## 🧬 Топология как «отпечаток пальца» системы
[[JUMP:21:45]]

Одним из самых амбициозных проектов лаборатории Элиаси-Рад стало применение фундаментальной топологии для сравнения графов. Её студент Лео Торрес использовал понятие «спектр длин» (length spectrum), чтобы создать своего рода уникальный хэш графа [23:42].

Суть метода заключается в анализе **невозвратных матриц** (non-backtracking matrices). В отличие от обычных матриц смежности, они учитывают пути, которые не возвращаются мгновенно в исходную точку. Это позволяет «услышать» форму графа через его циклы и дыры, игнорируя несущественные детали вроде «листьев» (тупиковых узлов) [23:03].

По словам Элиаси-Рад, ведущее собственное число (eigenvalue) такой матрицы гораздо точнее предсказывает скорость распространения эпидемии в сети, чем традиционные методы [28:10].

## 📋 Практические советы для дата-сайентистов
[[JUMP:32:36]]

В завершение беседы Тина Элиаси-Рад дала рекомендации специалистам, работающим в индустрии. Она призывает не ограничиваться знанием алгоритмов, а глубоко изучать контекст (феноменологию) данных [33:39].

Чек-лист для проверки своей модели:

*   **Происхождение данных:** Понимаете ли вы политический и социальный контекст сбора данных? (Профессор рекомендует проект «The Library of Missing Datasets») [34:03].
*   **Дискретизация времени:** Не ломает ли разбиение данных «по дням» (понедельник, вторник и т.д.) реальные закономерности процесса? [34:29].
*   **Этический тест:** Хотели бы вы, чтобы этот алгоритм был применен лично к вам? Личный опыт Элиаси-Рад показывает, что на этот вопрос почти никто из разработчиков ML не готов ответить «да» [35:34].

Финальный тезис профессора: «Всё в мире — это сеть, просто иногда вы её не видите. Если не видите — позвоните мне, и я покажу, какой граф скрывается за вашей системой» [36:01].