# Карианне Берген: как машинное обучение обнаруживает скрытые землетрясения

Источник: https://www.youtube.com/watch?v=ZgjUpNu_G8g
Канал: The TWIML AI Podcast
Опубликовано: 20.01.2022

---

На стыке прикладной математики и наук о Земле рождаются инструменты, способные заглянуть вглубь планеты эффективнее, чем когда-либо. Карианне Берген (Karianne Bergen), ассистент-профессор Университета Брауна, рассказывает о том, как алгоритмы поиска похожих аудиозаписей помогают находить микроземлетрясения и почему современная наука нуждается в новом поколении специалистов, одинаково хорошо владеющих кодом и физикой.

## 🎓 Путь от прикладной математики к сейсмологии
[[JUMP:00:42]]

Карианне Берген начала свою карьеру с изучения прикладной математики и физики в Университете Брауна, еще не подозревая о существовании термина «data science». Ее путь в индустрию начался в Лаборатории Линкольна MIT, где она работала над обнаружением биологических угроз с использованием сенсорных сетей. Несмотря на должность инженера-программиста, Берген занималась прототипированием алгоритмов анализа данных в MATLAB, что фактически было прикладным машинным обучением.

Позже, во время обучения в Стэнфорде на программе вычислительной математики, Берген столкнулась с резким ростом интереса к Big Data. По ее словам, поиск сложных задач в области науки о данных часто приводит к междисциплинарному сотрудничеству. Случайная встреча с профессором-сейсмологом определила тему ее диссертации: обнаружение сверхмалых землетрясений в многолетних записях волновых форм.

Сегодня Берген занимает совместную должность в Инициативе по науке о данных и на факультете наук о Земле, окружающей среде и планетах в Университете Брауна. Она считает студентов этого университета одними из самых талантливых в мире и планирует развивать исследования на стыке обработки сигналов и классификации волновых форм.

## 🔍 Технологии «аудиопоиска» для недр Земли
[[JUMP:06:59]]

Одной из ключевых проблем сейсмологии является отсутствие размеченных данных. В то время как индустрия оперирует огромными базами с четкими метками, ученые часто стремятся найти нечто принципиально новое в «шумных» архивах. Диссертационное исследование Берген было сосредоточено на методах обучения без учителя (unsupervised learning).



Основная концепция ее работы базируется на поиске повторяющихся паттернов:

* Землетрясения из одного и того же источника создают почти идентичные «загогулины» (вибрации) на сейсмограммах, даже если они произошли с разницей в 10 лет.
* Для поиска таких совпадений Берген адаптировала методы из области аудио-ретривала (поиска по звуковым базам).
* В основе системы лежит метод **Locality Sensitive Hashing (LSH)** — алгоритм из теоретической информатики для быстрого поиска ближайших соседей в больших массивах данных.

По мнению Берген, использование LSH позволяет эффективно кластеризовать волновые формы и обнаруживать слабые сигналы, которые ранее терялись в фоновом шуме. Это междисциплинарный проект, объединивший специалистов по сейсмологии, компьютерным наукам и анализу данных.

## 🌍 Проблема обобщения: от Земли до Марса
[[JUMP:11:56]]

В последние три года в сейсмологии наметился переход к методам обучения с учителем (supervised learning). Это стало возможным благодаря появлению крупных размеченных наборов данных. Алгоритмы обучаются распознавать специфические фазы землетрясения:

1.  **P-волны** (первичные, продольные).
2.  **S-волны** (вторичные, поперечные).



Однако Карианне Берген указывает на серьезные ограничения этого подхода:

* **Редкость событий:** Модели хорошо находят «стандартные» землетрясения, но пасуют перед редкими явлениями, такими как ледотрясения, оползни или лавины.
* **Межпланетные различия:** Модель, обученная на земных данных, может оказаться бесполезной для сейсмометра на Марсе («марсотрясения» выглядят иначе).
* **Специфика локации:** Сигналы зависят от пути прохождения волны через земную кору. Хотя общие паттерны P и S-волн сохраняются, точность может падать при смене региона.

## 📡 Сети датчиков и борьба с ложными срабатываниями
[[JUMP:14:43]]

Одной из главных трудностей при поиске слабых сигналов является техногенный шум. Например, грузовик, проезжающий мимо датчика, может создать сигнал, похожий на микроземлетрясение. Берген утверждает, что лучший способ отсеять такие ошибки — это обращение к физике.

Истинное сейсмическое событие должно быть консистентным во времени и пространстве. Оно фиксируется несколькими станциями сети, но с задержкой, соответствующей скорости распространения волны. Этот процесс называется «ассоциацией фаз». Для решения этой задачи команда Берген использовала поиск паттернов в гигантских разреженных матрицах, которые являются результатом работы детектора.

Конечная цель этих исследований — создание более полных каталогов землетрясений. По словам гостьи, такие каталоги — фундамент для понимания физики процессов в недрах Земли. В то время как Геологическая служба США (USGS) вынуждена быть консервативной и избегать ложных тревог в публичных сообщениях, исследователи стремятся найти абсолютно все события для последующего анализа.

## 🧠 Почему ученые не любят «черные ящики»
[[JUMP:21:53]]

Берген отмечает существенный разрыв между академической наукой и ИТ-индустрией. В то время как компьютерные науки сосредоточены на текстах и изображениях, ученым нужны инструменты для анализа временных рядов и сигналов. 

Ключевые претензии научного сообщества к стандартным методам машинного обучения:

* **Отсутствие интерпретируемости:** Ученые не хотят использовать «черные ящики». Если модель что-то предсказала, важно понимать, на каких физических принципах или представлениях основано это решение.
* **Доверие:** В вопросах предупреждения о стихийных бедствиях цена ошибки велика. Модель должна помогать аналитикам-людям фокусировать внимание на странных или неочевидных случаях, а не просто выдавать результат.
* **Игнорирование доменных знаний:** Простая адаптация нейросетей из индустрии часто не учитывает накопленные десятилетиями знания о физике Земли.

Гостья проводит аналогию с вычислительной биологией. По ее мнению, сейсмологии необходимо пройти тот же путь — сформировать отдельную дисциплину, где специалисты будут глубоко понимать и предметную область, и алгоритмы.

## 📚 Образование нового типа
[[JUMP:33:17]]

Один из самых частых вопросов, которые задают Берген коллеги-ученые: «Чему учить студентов?». Она убеждена, что стандартного набора курсов по геологии уже недостаточно.

Рекомендованный минимум навыков от Карианне Берген:

* **Математика:** Статистика и линейная алгебра на глубоком уровне.
* **Программирование:** Уверенное владение Python.
* **Фундаментальный подход:** Студенты должны уметь не просто запускать пакеты вроде `scikit-learn`, но и модифицировать алгоритмы под свои задачи, внедряя в них физические ограничения (domain knowledge).

По словам Берген, сейчас многие студенты учатся коду стихийно, в рамках конкретных исследовательских проектов, но для создания инновационных инструментов им необходима систематическая подготовка.