На стыке прикладной математики и наук о Земле рождаются инструменты, способные заглянуть вглубь планеты эффективнее, чем когда-либо. Карианне Берген (Karianne Bergen), ассистент-профессор Университета Брауна, рассказывает о том, как алгоритмы поиска похожих аудиозаписей помогают находить микроземлетрясения и почему современная наука нуждается в новом поколении специалистов, одинаково хорошо владеющих кодом и физикой.
🎓 Путь от прикладной математики к сейсмологии 0:42
Карианне Берген начала свою карьеру с изучения прикладной математики и физики в Университете Брауна, еще не подозревая о существовании термина «data science». Ее путь в индустрию начался в Лаборатории Линкольна MIT, где она работала над обнаружением биологических угроз с использованием сенсорных сетей. Несмотря на должность инженера-программиста, Берген занималась прототипированием алгоритмов анализа данных в MATLAB, что фактически было прикладным машинным обучением.
Позже, во время обучения в Стэнфорде на программе вычислительной математики, Берген столкнулась с резким ростом интереса к Big Data. По ее словам, поиск сложных задач в области науки о данных часто приводит к междисциплинарному сотрудничеству. Случайная встреча с профессором-сейсмологом определила тему ее диссертации: обнаружение сверхмалых землетрясений в многолетних записях волновых форм.
Сегодня Берген занимает совместную должность в Инициативе по науке о данных и на факультете наук о Земле, окружающей среде и планетах в Университете Брауна. Она считает студентов этого университета одними из самых талантливых в мире и планирует развивать исследования на стыке обработки сигналов и классификации волновых форм.
🔍 Технологии «аудиопоиска» для недр Земли 6:59
Одной из ключевых проблем сейсмологии является отсутствие размеченных данных. В то время как индустрия оперирует огромными базами с четкими метками, ученые часто стремятся найти нечто принципиально новое в «шумных» архивах. Диссертационное исследование Берген было сосредоточено на методах обучения без учителя (unsupervised learning).
Основная концепция ее работы базируется на поиске повторяющихся паттернов:
- Землетрясения из одного и того же источника создают почти идентичные «загогулины» (вибрации) на сейсмограммах, даже если они произошли с разницей в 10 лет.
- Для поиска таких совпадений Берген адаптировала методы из области аудио-ретривала (поиска по звуковым базам).
- В основе системы лежит метод Locality Sensitive Hashing (LSH) — алгоритм из теоретической информатики для быстрого поиска ближайших соседей в больших массивах данных.
По мнению Берген, использование LSH позволяет эффективно кластеризовать волновые формы и обнаруживать слабые сигналы, которые ранее терялись в фоновом шуме. Это междисциплинарный проект, объединивший специалистов по сейсмологии, компьютерным наукам и анализу данных.
🌍 Проблема обобщения: от Земли до Марса 11:56
В последние три года в сейсмологии наметился переход к методам обучения с учителем (supervised learning). Это стало возможным благодаря появлению крупных размеченных наборов данных. Алгоритмы обучаются распознавать специфические фазы землетрясения:
- P-волны (первичные, продольные).
- S-волны (вторичные, поперечные).
Однако Карианне Берген указывает на серьезные ограничения этого подхода:
- Редкость событий: Модели хорошо находят «стандартные» землетрясения, но пасуют перед редкими явлениями, такими как ледотрясения, оползни или лавины.
- Межпланетные различия: Модель, обученная на земных данных, может оказаться бесполезной для сейсмометра на Марсе («марсотрясения» выглядят иначе).
- Специфика локации: Сигналы зависят от пути прохождения волны через земную кору. Хотя общие паттерны P и S-волн сохраняются, точность может падать при смене региона.
📡 Сети датчиков и борьба с ложными срабатываниями 14:43
Одной из главных трудностей при поиске слабых сигналов является техногенный шум. Например, грузовик, проезжающий мимо датчика, может создать сигнал, похожий на микроземлетрясение. Берген утверждает, что лучший способ отсеять такие ошибки — это обращение к физике.
Истинное сейсмическое событие должно быть консистентным во времени и пространстве. Оно фиксируется несколькими станциями сети, но с задержкой, соответствующей скорости распространения волны. Этот процесс называется «ассоциацией фаз». Для решения этой задачи команда Берген использовала поиск паттернов в гигантских разреженных матрицах, которые являются результатом работы детектора.
Конечная цель этих исследований — создание более полных каталогов землетрясений. По словам гостьи, такие каталоги — фундамент для понимания физики процессов в недрах Земли. В то время как Геологическая служба США (USGS) вынуждена быть консервативной и избегать ложных тревог в публичных сообщениях, исследователи стремятся найти абсолютно все события для последующего анализа.
🧠 Почему ученые не любят «черные ящики» 21:53
Берген отмечает существенный разрыв между академической наукой и ИТ-индустрией. В то время как компьютерные науки сосредоточены на текстах и изображениях, ученым нужны инструменты для анализа временных рядов и сигналов.
Ключевые претензии научного сообщества к стандартным методам машинного обучения:
- Отсутствие интерпретируемости: Ученые не хотят использовать «черные ящики». Если модель что-то предсказала, важно понимать, на каких физических принципах или представлениях основано это решение.
- Доверие: В вопросах предупреждения о стихийных бедствиях цена ошибки велика. Модель должна помогать аналитикам-людям фокусировать внимание на странных или неочевидных случаях, а не просто выдавать результат.
- Игнорирование доменных знаний: Простая адаптация нейросетей из индустрии часто не учитывает накопленные десятилетиями знания о физике Земли.
Гостья проводит аналогию с вычислительной биологией. По ее мнению, сейсмологии необходимо пройти тот же путь — сформировать отдельную дисциплину, где специалисты будут глубоко понимать и предметную область, и алгоритмы.
📚 Образование нового типа 33:17
Один из самых частых вопросов, которые задают Берген коллеги-ученые: «Чему учить студентов?». Она убеждена, что стандартного набора курсов по геологии уже недостаточно.
Рекомендованный минимум навыков от Карианне Берген:
- Математика: Статистика и линейная алгебра на глубоком уровне.
- Программирование: Уверенное владение Python.
- Фундаментальный подход: Студенты должны уметь не просто запускать пакеты вроде
scikit-learn, но и модифицировать алгоритмы под свои задачи, внедряя в них физические ограничения (domain knowledge).
По словам Берген, сейчас многие студенты учатся коду стихийно, в рамках конкретных исследовательских проектов, но для создания инновационных инструментов им необходима систематическая подготовка.