Джонатан Ле Ру: «Мы стремимся к тотальной транскрипции звука»

Как машинное обучение помогает справиться с классической «проблемой коктейльной вечеринки» и научить алгоритмы разделять речь, музыку и фоновые шумы в сложных аудиопотоках? В интервью для The TWIML AI Podcast Джонатан Ле Ру (Jonathan Le Roux), ведущий исследователь Mitsubishi Electric Research Laboratories (MERL), рассказал о своем пути от чистой математики к обработке звука, новой формулировке задачи в виде «коктейльной вилки» и будущем тотальной транскрипции аудиовизуальной среды.

🎧 От чистой математики к обработке звука: путь Джонатана Ле Ру 0:01

Джонатан Ле Ру работает старшим главным научным сотрудником в престижной лаборатории Mitsubishi Electric Research Laboratories (MERL). Его академическая карьера началась с изучения чистой математики, которой он преданно занимался вплоть до окончания магистратуры. Магистерскую диссертацию исследователь писал под руководством Седрика Виллани (Cédric Villani) — выдающегося французского ученого, который впоследствии стал лауреатом Филдсовской премии.

Планируя докторскую диссертацию (PhD), Ле Ру решил взять академический отпуск (gap year) и отправиться в Китай, поскольку глубоко увлекался изучением китайского языка и лингвистикой в целом. Когда он вернулся, его научный руководитель Виллани сообщил, что уезжает работать в Стэнфордский университет, и посоветовал Джонатану поискать другие варианты для защиты. Ле Ру принял решение поехать в Японию, где у него уже появились друзья за время поездки в Китай, и погрузился в изучение японского языка.

В этот период ученый осознал, что академическая чистая математика перестала его вдохновлять. Он начал искать прикладную сферу, способную объединить его ключевые увлечения. Идеальным пересечением математического аппарата, страсти к иностранным языкам и любви к музыке (Джонатан играл в любительской рок-группе с друзьями) стала область обработки речи и звука. В результате он успешно защитил диссертацию под двойным руководством профессоров из Токийского университета и из Парижа.

🍹 Эволюция «проблемы коктейльной вечеринки» 2:09

Вся основная деятельность исследовательской группы Ле Ру сосредоточена вокруг фундаментальной задачи разделения источников звука (audio source separation). Главным ориентиром в этой области выступает так называемая «проблема коктейльной вечеринки» (cocktail party problem), термин для которой еще в 1953 году предложил британский ученый Колин Черри (Colin Cherry). Суть проблемы заключается в уникальной способности человеческого слуха фокусироваться на одном конкретном голосе собеседника посреди шумной комнаты, игнорируя реверберацию (эхо) и другие интерференции.

Команда MERL двигалась к решению этой амбициозной задачи поэтапно:

Улучшение речи (Speech Enhancement): Первым шагом стало отделение человеческого голоса от некоррелированного фонового шума. По словам Ле Ру, это относительно простая задача для машинного обучения, поскольку физические характеристики речи и шума (например, гула машин или ветра) сильно различаются, что позволяет сети легко классифицировать их.
Разделение речи (Speech Separation): Настоящей вехой для индустрии стало разделение смеси голосов нескольких говорящих людей одновременно. Сложность заключалась в том, что голоса разных людей имеют одинаковую акустическую природу, и долгое время было неясно, как эффективно решать эту задачу без глубокого обучения.

Отвечая на вопрос ведущего о том, разделяет ли человеческий мозг звуки физически или просто использует механизмы внимания, Ле Ру отметил, что данные нейробиологии указывают на существование обоих процессов. По его мнению, зоны мозга более высокого уровня направляют низшие регуляторные слуховые системы, заставляя их фокусироваться на определенных спектрально-временных признаках звука и подавлять остальные.

Интересно, что для систем автоматического распознавания речи (ASR) предварительное очищение аудио от шумов не всегда является оптимальной стратегией. Ле Ру подчеркнул, что современные модели распознавания одноканального аудио зачастую работают точнее, если их обучать на зашумленных данных напрямую. Попытки «помочь» нейросети и предварительно удалить шум алгоритмически нередко приводят к появлению артефактов, которые сбивают транскрибатор с толку. Тем не менее гость выразил уверенность, что по мере совершенствования алгоритмов шумоподавления их интеграция в ASR-системы станет стандартом индустрии.

🍴 От вечеринки к «коктейльной вилке»: новая постановка задачи 6:58

Недавно команда Ле Ру представила новую концепцию, которую они шутливо назвали «проблемой коктейльной вилки» (cocktail fork problem). Идея родилась из личного опыта исследователя: будучи неносителем английского языка, ему бывало трудно расслышать диалоги в фильмах из-за громких спецэффектов и навязчивой музыки. Современные «умные» телевизоры пытаются решать эту проблему с помощью простой эквализации частот, но они не умеют физически разделять аудиопотоки.

Задача «коктейльной вилки» заключается в том, чтобы разделить сложную акустическую сцену фильма или телепередачи ровно на три независимые ветви (отсюда и аналогия с трехзубчатой вилкой):

Чистая речь и диалоги.
Музыкальное сопровождение.
Звуковые эффекты и окружающие звуковые события.

Для обучения модели исследователям пришлось искусственно воссоздать реалистичный датасет, имитирующий микширование кинозвука с учетом уровней громкости и степени перекрытия звуков. Результаты показали отличную генерализацию алгоритма. Модель, обученная исключительно на синтетических данных, успешно справлялась с разделением реального аудио из трейлеров на YouTube и сериалов.

В процессе работы ученые столкнулись с непредвиденным техническим казусом:

Изначально сеть обучалась на частоте дискретизации 16 кГц для экономии вычислительных ресурсов.
В первой итерации использовалась ошибочная версия речевого датасета, пропущенная через слишком жесткий фильтр низких частот, отсекавший верхний частотный регистр речи.
При тестировании на реальных видео это привело к тому, что высокие частоты голосов (писклявые звуки) начали просачиваться (bleed) в дорожки музыки и спецэффектов.

После перехода на полнодиапазонные качественные данные проблема полностью исчезла. Кроме того, Ле Ру подтвердил, что разработанные архитектуры абсолютно инвариантны к языку (language agnostic). Еще в 2017 году на живой демонстрации в Японии модель, обученная всего на 30 часах английской речи (база Wall Street Journal), без труда разделяла комбинации из английского, японского и французского языков, ориентируясь исключительно на акустические свойства, а не на семантику.

🌀 Спектрограммы, фазы и архитектурные хитрости 12:40

Долгое время разделение речи в идеальных условиях считалось непреодолимым барьером. Однако после того, как в 2016 году команда Ле Ру предложила метод глубокой кластеризации (deep clustering), позволяющий разделять голоса незнакомых спикеров, эта планка была взята. По словам гостя, на чистых записях Wall Street Journal современные алгоритмы достигают феноменальной метрики разделения — более 20 дБ, что делает задачу фактически решенной.

Главный вызов сегодня — это работа в условиях сильного шума и реверберации (эха). Для этого исследователи выпустили открытый датасет WHAM! (Wall Street Journal Hipster Ambient Mixtures). В условиях эха звуковые волны «размазываются» по спектрограмме (визуальному представлению энергии звука по времени и частотам). Если в чистом виде гармоническая речь выглядит на спектрограмме как четкие параллельные полосы (stripes), которые легко отмаскировать, то реверберация превращает их в сплошное кашеобразное месиво, где звуковые дорожки накладываются друг на друга.

В отличие от классических методов, порождавших неприятный «музыкальный шум» и бульканье, глубокое обучение страдает от других типов ошибок:

Проблема перестановки спикеров (Speaker Permutation Problem): Алгоритм может идеально разделять два голоса в каждый конкретный момент времени, но в середине записи ошибиться на этапе «склейки» (stitching) и поменять дорожки местами. В наушниках это ощущается так, словно собеседники мгновенно поменялись сторонами.
Общие сбои разделения: В экстремально сложных условиях сеть может просто полностью сдать позиции, что характерно для многих глубоких нейросетей.

Что касается архитектуры модели для «коктейльной вилки», за основу была взята нейросеть X-UMX (CrossNet-Open-Unmix), разработанная компанией Sony для разделения музыки. Она базируется на двунаправленных слоях LSTM (BLSTM). Ключевой инновацией Ле Ру стало использование окон преобразования Фурье разной длины для разных ветвей сети.

Поскольку спецэффекты (например, хлопки, взрывы) требуют высокого временного разрешения, для них оптимально использовать короткое окно анализа. Напротив, для протяжных синусоидальных звуков (сирены, музыка) нужно длинное окно, обеспечивающее высокое разрешение по частоте. Внедрение многомасштабных ветвей (разных размеров окон) позволило заметно поднять качество фильтрации звука.

🧠 Обучение без учителя и концепция иерархического разделения 27:35

Традиционный подход требует контролируемого обучения (supervised learning): ученые смешивают чистые звуки и заставляют сеть минимизировать разницу между предсказанием и исходным чистым источником. Но в реальном мире записать изолированные источники невозможно. Чтобы преодолеть это ограничение, исследователи создают альтернативные подходы. Например, бывший коллега Джонатана, Джон Херши (John Hershey), разработал в Google алгоритм MixIT (Wisdom et al.). Он берет две готовые смеси, смешивает их между собой (получается смесь смесей), а затем заставляет сеть разложить этот массив на отдельные компоненты, восстанавливая исходные миксы путем перебора комбинаций.

Команда Ле Ру пошла по пути слабоконтролируемого обучения (weakly supervised source separation). Модели дают на вход смесь звуков, а в качестве разметки используют лишь бинарные теги: присутствует ли в записи конкретный класс звука (например, «собака», «машина», «звонок»). Сеть разделяет аудио, а встроенный классификатор проверяет, соответствуют ли выделенные дорожки заданным тегам. По мнению гостя, такие методы критически важны для масштабирования технологий на реальные «полевые» записи.

Еще одна прорывная идея группы MERL — иерархическое разделение источников (hierarchical source separation). В сложных условиях задача разделения часто некорректна (ill-posed). Если в баре играет группа, что значит «разделить сцену»? Отделить речь от музыки? Выделить каждый инструмент? Или разделить каждого человека в толпе?

Исследователи протестировали концепцию иерархии на примере музыкальных инструментов:

Если пользователь запрашивает у системы изоляцию «акустической гитары», сеть выстраивает многоуровневое дерево.
На нижнем уровне оценивается наличие конкретно акустической гитары, на уровне выше — любых гитар вообще (включая электрогитары), а на самом верху — всех гармонических инструментов.
При обучении накладывается жесткое маскирующее ограничение: родительская маска (значения от 0 до 1) во временной-частотной области обязана быть не меньше, чем максимальное значение масок ее «детей».

Такая регуляризация позволила сети обучаться значительно эффективнее даже при дефиците специфических данных (например, когда записей акустической гитары мало, но много электрогитар).

👁️ Аудиовизуальный синергизм и финальная цель: тотальная транскрипция 39:41

В настоящее время команда Ле Ру активно развивает аудиовизуальное разделение источников совместно с коллегами из подразделения компьютерного зрения MERL. Использование видеоряда в качестве вспомогательного признака (auxiliary feature) драматически улучшает разделение звука. Например, алгоритм, видя на видео, как палочка ударяет по кастрюле, точнее локализует и изолирует этот конкретный импульсный звук из общего шума.

По словам Джонатана Ле Ру, глобальная цель его команды формулируется как «тотальная транскрипция» (total transcription). Это создание универсальной ИИ-системы для холистического анализа сложных сред. Конечный алгоритм должен не просто превращать речь в текст, но и распознавать эмоции спикеров, отделять и транскрибировать музыку в ноты, а также детектировать любые сторонние звуковые события с их точной локализацией в трехмерном пространстве.