Как Google учит нейросети различать голоса исчезающих птиц в шуме леса

Eye on AI 701 28 мин 4 мин 27.04.2022
Главное

В новом выпуске подкаста Eye on AI ведущий Крейг Смит обсуждает с инженером Google Томом Дентоном прорывные методы машинного обучения для анализа биоакустики. Основное внимание уделено алгоритмам разделения аудиосигналов, которые позволяют выделять голоса отдельных птиц из лесного шума, что открывает новые возможности для экологов и защиты исчезающих видов.

🦜 Машинное обучение в мире звуков природы 1:44

Том Дентон, в прошлом математик, уже семь лет работает в Google, последние несколько из которых — в группе биоакустики . Его путь в ИИ начался с интереса к обработке аудиосигналов, что привело его к созданию инструментов для распознавания живой природы. По словам Дентона, работа со звуком имеет сходство с компьютерным зрением: аудио часто преобразуют в спектрограммы — визуальные изображения, где время отложено по одной оси, а частота — по другой . Однако аудио обладает уникальными физическими свойствами, которые требуют специфических подходов, особенно в задачах разделения сигналов.

Миссия группы биоакустики в Google, как утверждает гость, заключается в поддержке ученых-экологов и специалистов по охране природы . Стратегия команды строится на разработке открытых моделей (open source), которые исследователи по всему миру могут адаптировать под свои нужды для мониторинга экосистем .

🎧 Решение проблемы «коктейльной вечеринки» в лесу 4:36

Одной из самых сложных задач в биоакустике является разделение звуков в зашумленной среде. В Google уже существовали наработки для подавления шума в сервисах вроде Google Meet (например, отсечение рева мотоцикла от голоса спикера) . Однако, по мнению Дентона, обучение таких моделей для птиц гораздо сложнее:

Для решения этой проблемы коллеги Дентона, Скотт Уиздом и Джон Херши, разработали алгоритм неконтролируемого разделения звуков (unsupervised sound separation) . Традиционные модели требуют чистых образцов для обучения («чистый голос + шум»), но новый метод позволяет обучать ИИ на необработанных, смешанных записях из дикой природы.

🛠 Технология «Смесь смесей» (Mix-IT) 9:21

Дентон подробно описывает архитектуру решения, которое он называет «смесью смесей» (mixture of mixtures) :

  1. Процесс обучения: Нейросеть берет две зашумленные записи и смешивает их. Задача модели — создать маски, разделяющие этот микс на несколько каналов (обычно 4 или 8) .
  2. Штраф за ошибки: Если сеть ошибочно помещает два независимых звука в один канал, она получает «штраф» (высокий уровень искажения по сравнению с входными данными). Это заставляет её максимально эффективно изолировать каждый источник звука .
  3. Архитектура: Используется одномерная сверточная нейросеть (1D CNN) с архитектурой U-Net . Она работает на уровне отдельных сэмплов аудио, извлекает глубокие представления и возвращается к маскам, которые накладываются на исходный сигнал .

В результате классификатор получает не одну общую дорожку, а пять: оригинальную запись и четыре разделенных канала . ИИ анализирует каждый канал и выдает итоговый результат на основе максимального показателя вероятности среди всех треков .

🏝 Спасение исчезающих птиц Гавайев 13:07

Важным этапом работы стал запуск конкурса на платформе Kaggle, организованного совместно с Университетом Гавайев и Корнеллской лабораторией орнитологии . Цель конкурса — научить ИИ распознавать редкие и находящиеся под угрозой исчезновения виды.

🎶 «Джаз» в песнях и 16 типов криков 18:48

Обсуждая сложность птичьего языка, Дентон приводит примеры вариативности:

Дентон признает, что современные классификаторы пока плохо справляются с различением контекста (например, гнездовой крик против крика в полете), но это — приоритетное направление будущих исследований .

🔥 Влияние лесных пожаров и будущее технологий 24:18

Инженеры Google сотрудничают с Калифорнийской академией наук для изучения последствий лесных пожаров в горах Сьерра-Невада . Анализ тысяч часов аудиозаписей «до и после» показал любопытные изменения в экосистеме. Например, после неконтролируемых пожаров в лесу остается много стоящей мертвой древесины, что приводит к резкому скачку популяции дятлов .

Помимо орнитологии, Дентон видит применение этих алгоритмов в самых разных областях:

Хотя сейчас эти модели требуют значительных мощностей, Дентон полагает, что благодаря развитию тензорных процессоров (TPU) и алгоритмической оптимизации, в будущем подобные ИИ-фильтры смогут работать непосредственно в носимых устройствах и слуховых аппаратах .

💬 Цитаты

«Если вы стоите в лесу, вы видите деревья, но почти не видите птиц. Однако они постоянно общаются, и аудио дает нам колоссальный объем информации об их жизни.»

Том Дентон 14:00

«Идентификация исчезающих видов — это один из лучших рычагов для защиты критических сред обитания на законодательном уровне.»

Том Дентон 18:22
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Спектрограмма
Визуальное представление спектра частот сигнала в зависимости от времени.
Биоакустика
Раздел биологии, изучающий звуковую коммуникацию животных и воздействие звуков на живые организмы.
U-Net
Архитектура сверточной нейросети, изначально созданная для сегментации биомедицинских изображений.
Проблема коктейльной вечеринки
Задача выделения одного конкретного источника звука (например, голоса человека) из множества других шумов и голосов.
📊 Цифры
🗓 Хронология
  1. 2015 Том Дентон присоединился к Google.
  2. 2018 Дентон начал заниматься машинным обучением в области аудио и биоакустики.
  3. 2020 Скотт Уиздом и Джон Херши разработали базовый алгоритм неконтролируемого разделения звуков.
  4. 2021 Запуск третьего ежегодного конкурса Kaggle по классификации звуков птиц.
⚖️ Другая сторона
Искусственный интеллект Google Air bioacoustics Xeno-canto Kaggle U-Net