Как Google учит нейросети различать голоса исчезающих птиц в шуме леса

В новом выпуске подкаста Eye on AI ведущий Крейг Смит обсуждает с инженером Google Томом Дентоном прорывные методы машинного обучения для анализа биоакустики. Основное внимание уделено алгоритмам разделения аудиосигналов, которые позволяют выделять голоса отдельных птиц из лесного шума, что открывает новые возможности для экологов и защиты исчезающих видов.

🦜 Машинное обучение в мире звуков природы 1:44

Том Дентон, в прошлом математик, уже семь лет работает в Google, последние несколько из которых — в группе биоакустики . Его путь в ИИ начался с интереса к обработке аудиосигналов, что привело его к созданию инструментов для распознавания живой природы. По словам Дентона, работа со звуком имеет сходство с компьютерным зрением: аудио часто преобразуют в спектрограммы — визуальные изображения, где время отложено по одной оси, а частота — по другой . Однако аудио обладает уникальными физическими свойствами, которые требуют специфических подходов, особенно в задачах разделения сигналов.

Миссия группы биоакустики в Google, как утверждает гость, заключается в поддержке ученых-экологов и специалистов по охране природы . Стратегия команды строится на разработке открытых моделей (open source), которые исследователи по всему миру могут адаптировать под свои нужды для мониторинга экосистем .

🎧 Решение проблемы «коктейльной вечеринки» в лесу 4:36

Одной из самых сложных задач в биоакустике является разделение звуков в зашумленной среде. В Google уже существовали наработки для подавления шума в сервисах вроде Google Meet (например, отсечение рева мотоцикла от голоса спикера) . Однако, по мнению Дентона, обучение таких моделей для птиц гораздо сложнее:

Отсутствие студийных записей: В отличие от людей, птиц нельзя просто пригласить в студию для записи чистого голоса. В дикой природе они всегда поют на фоне ветра, дождя или других видов .
Наложение голосов: Птицы часто поют одновременно, создавая какофонию, которую стандартные классификаторы с трудом «разбирают» .

Для решения этой проблемы коллеги Дентона, Скотт Уиздом и Джон Херши, разработали алгоритм неконтролируемого разделения звуков (unsupervised sound separation) . Традиционные модели требуют чистых образцов для обучения («чистый голос + шум»), но новый метод позволяет обучать ИИ на необработанных, смешанных записях из дикой природы.

🛠 Технология «Смесь смесей» (Mix-IT) 9:21

Дентон подробно описывает архитектуру решения, которое он называет «смесью смесей» (mixture of mixtures) :

Процесс обучения: Нейросеть берет две зашумленные записи и смешивает их. Задача модели — создать маски, разделяющие этот микс на несколько каналов (обычно 4 или 8) .
Штраф за ошибки: Если сеть ошибочно помещает два независимых звука в один канал, она получает «штраф» (высокий уровень искажения по сравнению с входными данными). Это заставляет её максимально эффективно изолировать каждый источник звука .
Архитектура: Используется одномерная сверточная нейросеть (1D CNN) с архитектурой U-Net . Она работает на уровне отдельных сэмплов аудио, извлекает глубокие представления и возвращается к маскам, которые накладываются на исходный сигнал .

В результате классификатор получает не одну общую дорожку, а пять: оригинальную запись и четыре разделенных канала . ИИ анализирует каждый канал и выдает итоговый результат на основе максимального показателя вероятности среди всех треков .

🏝 Спасение исчезающих птиц Гавайев 13:07

Важным этапом работы стал запуск конкурса на платформе Kaggle, организованного совместно с Университетом Гавайев и Корнеллской лабораторией орнитологии . Цель конкурса — научить ИИ распознавать редкие и находящиеся под угрозой исчезновения виды.

Проблема данных: Для обычных видов птиц данных много, но для редких их крайне мало. Дентон отмечает, что для некоторых целевых видов в их распоряжении всего один пример записи .
Экологическое значение: В лесу птиц сложно увидеть, но они постоянно вокализируют. Аудиоданные позволяют ученым понять, сколько особей находится в лесу, что они едят и как используют среду обитания .
Юридический аспект: Дентон подчеркивает, что обнаружение исчезающего вида с помощью ИИ может стать юридическим рычагом для защиты территории в рамках Закона об исчезающих видах (Endangered Species Act) .

🎶 «Джаз» в песнях и 16 типов криков 18:48

Обсуждая сложность птичьего языка, Дентон приводит примеры вариативности:

Географические диалекты: Птицы одного вида могут петь по-разному на разных склонах одной горы .
Сложность репертуара: Некоторые виды, по словам гостя, исполняют подобие «джаза», усложняя песню, чтобы впечатлить партнера .
Типы сигналов: Исследователи из Австралии, изучающие траурного какаду (Glossy Black Cockatoo), выделили 16 различных типов вокализаций у этого вида .

Дентон признает, что современные классификаторы пока плохо справляются с различением контекста (например, гнездовой крик против крика в полете), но это — приоритетное направление будущих исследований .

🔥 Влияние лесных пожаров и будущее технологий 24:18

Инженеры Google сотрудничают с Калифорнийской академией наук для изучения последствий лесных пожаров в горах Сьерра-Невада . Анализ тысяч часов аудиозаписей «до и после» показал любопытные изменения в экосистеме. Например, после неконтролируемых пожаров в лесу остается много стоящей мертвой древесины, что приводит к резкому скачку популяции дятлов .

Помимо орнитологии, Дентон видит применение этих алгоритмов в самых разных областях:

Медицина: Разделение сигналов ЭЭГ головного мозга для очистки нейронных импульсов от шумов, вызванных мышечными спазмами или движением глаз .
Сейсмология: Отделение звуков тектонических плит от шума проезжающих грузовиков или гидроразрыва пласта при добыче нефти .
Слуховые аппараты: Решение «проблемы коктейльной вечеринки», помогающее людям с нарушениями слуха выделять голос собеседника в шумном помещении .

Хотя сейчас эти модели требуют значительных мощностей, Дентон полагает, что благодаря развитию тензорных процессоров (TPU) и алгоритмической оптимизации, в будущем подобные ИИ-фильтры смогут работать непосредственно в носимых устройствах и слуховых аппаратах .