Карианне Берген: как машинное обучение обнаруживает скрытые землетрясения

The TWIML AI Podcast 1,4 тыс. 36 мин 4 мин 20.01.2022
Главное

На стыке прикладной математики и наук о Земле рождаются инструменты, способные заглянуть вглубь планеты эффективнее, чем когда-либо. Карианне Берген (Karianne Bergen), ассистент-профессор Университета Брауна, рассказывает о том, как алгоритмы поиска похожих аудиозаписей помогают находить микроземлетрясения и почему современная наука нуждается в новом поколении специалистов, одинаково хорошо владеющих кодом и физикой.

🎓 Путь от прикладной математики к сейсмологии 0:42

Карианне Берген начала свою карьеру с изучения прикладной математики и физики в Университете Брауна, еще не подозревая о существовании термина «data science». Ее путь в индустрию начался в Лаборатории Линкольна MIT, где она работала над обнаружением биологических угроз с использованием сенсорных сетей. Несмотря на должность инженера-программиста, Берген занималась прототипированием алгоритмов анализа данных в MATLAB, что фактически было прикладным машинным обучением.

Позже, во время обучения в Стэнфорде на программе вычислительной математики, Берген столкнулась с резким ростом интереса к Big Data. По ее словам, поиск сложных задач в области науки о данных часто приводит к междисциплинарному сотрудничеству. Случайная встреча с профессором-сейсмологом определила тему ее диссертации: обнаружение сверхмалых землетрясений в многолетних записях волновых форм.

Сегодня Берген занимает совместную должность в Инициативе по науке о данных и на факультете наук о Земле, окружающей среде и планетах в Университете Брауна. Она считает студентов этого университета одними из самых талантливых в мире и планирует развивать исследования на стыке обработки сигналов и классификации волновых форм.

🔍 Технологии «аудиопоиска» для недр Земли 6:59

Одной из ключевых проблем сейсмологии является отсутствие размеченных данных. В то время как индустрия оперирует огромными базами с четкими метками, ученые часто стремятся найти нечто принципиально новое в «шумных» архивах. Диссертационное исследование Берген было сосредоточено на методах обучения без учителя (unsupervised learning).

Основная концепция ее работы базируется на поиске повторяющихся паттернов:

По мнению Берген, использование LSH позволяет эффективно кластеризовать волновые формы и обнаруживать слабые сигналы, которые ранее терялись в фоновом шуме. Это междисциплинарный проект, объединивший специалистов по сейсмологии, компьютерным наукам и анализу данных.

🌍 Проблема обобщения: от Земли до Марса 11:56

В последние три года в сейсмологии наметился переход к методам обучения с учителем (supervised learning). Это стало возможным благодаря появлению крупных размеченных наборов данных. Алгоритмы обучаются распознавать специфические фазы землетрясения:

  1. P-волны (первичные, продольные).
  2. S-волны (вторичные, поперечные).

Однако Карианне Берген указывает на серьезные ограничения этого подхода:

📡 Сети датчиков и борьба с ложными срабатываниями 14:43

Одной из главных трудностей при поиске слабых сигналов является техногенный шум. Например, грузовик, проезжающий мимо датчика, может создать сигнал, похожий на микроземлетрясение. Берген утверждает, что лучший способ отсеять такие ошибки — это обращение к физике.

Истинное сейсмическое событие должно быть консистентным во времени и пространстве. Оно фиксируется несколькими станциями сети, но с задержкой, соответствующей скорости распространения волны. Этот процесс называется «ассоциацией фаз». Для решения этой задачи команда Берген использовала поиск паттернов в гигантских разреженных матрицах, которые являются результатом работы детектора.

Конечная цель этих исследований — создание более полных каталогов землетрясений. По словам гостьи, такие каталоги — фундамент для понимания физики процессов в недрах Земли. В то время как Геологическая служба США (USGS) вынуждена быть консервативной и избегать ложных тревог в публичных сообщениях, исследователи стремятся найти абсолютно все события для последующего анализа.

🧠 Почему ученые не любят «черные ящики» 21:53

Берген отмечает существенный разрыв между академической наукой и ИТ-индустрией. В то время как компьютерные науки сосредоточены на текстах и изображениях, ученым нужны инструменты для анализа временных рядов и сигналов.

Ключевые претензии научного сообщества к стандартным методам машинного обучения:

Гостья проводит аналогию с вычислительной биологией. По ее мнению, сейсмологии необходимо пройти тот же путь — сформировать отдельную дисциплину, где специалисты будут глубоко понимать и предметную область, и алгоритмы.

📚 Образование нового типа 33:17

Один из самых частых вопросов, которые задают Берген коллеги-ученые: «Чему учить студентов?». Она убеждена, что стандартного набора курсов по геологии уже недостаточно.

Рекомендованный минимум навыков от Карианне Берген:

По словам Берген, сейчас многие студенты учатся коду стихийно, в рамках конкретных исследовательских проектов, но для создания инновационных инструментов им необходима систематическая подготовка.

💬 Цитаты

«Если у вас есть два землетрясения в одном месте, записанные одним прибором, то их графики выглядят почти идентично.»

Карианне Берген 08:16

«Ученые не любят «черные ящики». Если ваша цель — открыть что-то новое, простое получение ответа без понимания процесса не удовлетворяет.»

Карианне Берген 30:44
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Locality Sensitive Hashing (LSH)
Метод, позволяющий быстро находить похожие объекты в огромных массивах данных путем их группировки в корзины.
P-волны и S-волны
Различные фазы сейсмических волн, отличающиеся скоростью и типом колебаний частиц.
Интерпретируемость (XAI)
Способность человека понять причины, по которым алгоритм искусственного интеллекта принял то или иное решение.
Ассоциация фаз
Процесс сопоставления сигналов с разных станций для подтверждения, что они относятся к одному и тому же землетрясению.
📊 Цифры
🗓 Хронология
  1. Бакалавриат Изучение прикладной математики и физики в Университете Брауна.
  2. Работа в MIT Обнаружение биоагентов в сенсорных сетях в Лаборатории Линкольна.
  3. Аспирантура Обучение в Стэнфорде и защита диссертации по сейсмологии.
  4. Настоящее время Работа профессором в Университете Брауна на стыке двух дисциплин.
⚖️ Другая сторона
Наука Карианне Берген Locality Sensitive Hashing сейсмология Machine Learning обработка сигналов