Тина Элиаси-Рад: «Машинное обучение часто игнорирует физику реальных процессов»

The TWIML AI Podcast 915 36 мин 4 мин 23.12.2021
Главное

В мире искусственного интеллекта и анализа данных графы долгое время считались универсальным способом описания сложных связей. Однако на конференции NeurIPS в рамках воркшопа с ироничным названием «I Still Can't Believe It's Not Better» («Всё еще не могу поверить, что не стало лучше») профессор Северо-Восточного университета Тина Элиаси-Рад представила критический взгляд на то, как современные модели машинного обучения (ML) упрощают реальность, игнорируя физику и топологию порождающих процессов.

🧠 За пределами простых связей: гиперграфы и симпличиальные комплексы 4:47

Современное машинное обучение на графах чаще всего оперирует «простыми» структурами: есть узлы и ребра, соединяющие их попарно. Но по мнению Тины Элиаси-Рад, такой подход фатально ограничивает наше понимание сложных систем, таких как человеческий мозг или социальные институты .

Профессор выделяет три уровня представления связей:

Элиаси-Рад подчеркивает важный математический нюанс: процесс перехода от сложной структуры к простой не является обратимым. Если преобразовать гиперграф в обычный граф, а затем попытаться восстановить его обратно, исходная информация о групповых связях будет безвозвратно утеряна .

📉 Почему «красивые» идеи не работают в ML 3:57

Название воркшопа «I Still Can't Believe It's Not Better» отражает разочарование исследователей: многие элегантные математические теории не дают ожидаемого прорыва в нейросетях. Элиаси-Рад считает, что основная причина — в отрыве ML-специалистов от природы данных .

Ключевые проблемы современной индустрии, по словам гостьи:

  1. Игнорирование генерирующего процесса: Исследователи берут датасет и задачу предсказания, не задумываясь, как эти данные возникли в реальности.
  2. Универсализм во вред: Огромное количество методов эмбеддингов (graph embeddings) разрабатываются на основе социальных сетей. Они отлично работают там, где много «треугольников» (друзья моих друзей — мои друзья), но полностью проваливаются в биологических сетях (взаимодействие белков), где структура связей принципиально иная .
  3. Отсутствие «юнит-тестов» на случайность: Многие алгоритмы показывают «высокую точность» на графах, которые по сути являются случайными (модели Эрдеша — Реньи). Если модель находит закономерности там, где связи случайны по определению, она не обучается, а подгоняет ответ под шум .

🛡️ Безопасность и этика: как обмануть сеть 17:11

Работа Элиаси-Рад охватывает не только чистую математику, но и вопросы безопасности и социальной справедливости. Одно из направлений её исследований — состязательное машинное обучение (adversarial ML) на графах .

Темы её текущих проектов включают:

🧬 Топология как «отпечаток пальца» системы 21:45

Одним из самых амбициозных проектов лаборатории Элиаси-Рад стало применение фундаментальной топологии для сравнения графов. Её студент Лео Торрес использовал понятие «спектр длин» (length spectrum), чтобы создать своего рода уникальный хэш графа .

Суть метода заключается в анализе невозвратных матриц (non-backtracking matrices). В отличие от обычных матриц смежности, они учитывают пути, которые не возвращаются мгновенно в исходную точку. Это позволяет «услышать» форму графа через его циклы и дыры, игнорируя несущественные детали вроде «листьев» (тупиковых узлов) .

По словам Элиаси-Рад, ведущее собственное число (eigenvalue) такой матрицы гораздо точнее предсказывает скорость распространения эпидемии в сети, чем традиционные методы .

📋 Практические советы для дата-сайентистов 32:36

В завершение беседы Тина Элиаси-Рад дала рекомендации специалистам, работающим в индустрии. Она призывает не ограничиваться знанием алгоритмов, а глубоко изучать контекст (феноменологию) данных .

Чек-лист для проверки своей модели:

Финальный тезис профессора: «Всё в мире — это сеть, просто иногда вы её не видите. Если не видите — позвоните мне, и я покажу, какой граф скрывается за вашей системой» .

💬 Цитаты

«Если я перехожу от гиперграфа к его представлению в виде простого графа, а затем обратно — я не получу исходный гиперграф. Это необратимый процесс.»

Тина Элиаси-Рад 08:22

«Когда я спрашиваю своих коллег в области машинного обучения, хотел бы кто-то, чтобы их алгоритм применили к ним самим, никто не поднимает руку.»

Тина Элиаси-Рад 35:34
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Симпличиальный комплекс
Математическая структура, состоящая из точек, отрезков, треугольников и их многомерных аналогов, используемая для моделирования групповых связей.
Гиперграф
Обобщение графа, в котором ребро может соединять не два, а произвольное количество вершин.
Эмбеддинг графа
Метод представления узлов или ребер графа в виде векторов в многомерном пространстве для обработки нейросетями.
📊 Цифры
🗓 Хронология
  1. 1700-е Зарождение теории графов.
  2. 2001 События 11 сентября, спровоцировавшие рост финансирования сетевой науки для «соединения точек» в данных.
  3. 2021 Нобелевская премия по физике присуждена за изучение сложных систем (Джорджо Паризи).
⚖️ Другая сторона
Наука Тина Элиаси-Рад гиперграфы симпличиальные комплексы non-backtracking matrices нейронные сети на графах