Как Facebook Reality Labs синтезирует бинауральную речь из моно-аудио с помощью нейросетей

В современном мире видеоконференций мы привыкли видеть собеседников в виде плоских «говорящих голов» в маленьких прямоугольниках экрана. Александр Ричард, исследователь из Facebook Reality Labs (ныне часть Meta), работает над тем, чтобы стереть границы между физическим и виртуальным присутствием, создавая технологию фотореалистичных аватаров, которые не только выглядят, но и звучат неотличимо от реальности.

🎧 Миссия телеприсутствия: от моно к бинауральному звуку 2:49

Работа Александра Ричарда в Facebook Reality Labs сосредоточена на концепции «социального телеприсутствия» . Конечная цель — достичь такого уровня погружения в VR, при котором пользователь не чувствует разницы между разговором вживую и виртуальной встречей. Для этого недостаточно просто качественной картинки; звук играет критическую роль в преодолении «зловещей долины» (uncanny valley) — эффекта, когда почти человекоподобный объект вызывает инстинктивное отторжение из-за мелких несоответствий .

Ключевой проблемой современных систем является использование моно-аудио. В реальности мы слышим звук двумя ушами (бинаурально), что позволяет мозгу определять направление, расстояние и даже материал поверхностей вокруг. По словам Александра Ричарда, упустить бинауральность — значит потерять половину полезного сигнала . В то время как игровая индустрия давно использует пространственный звук, он часто является лишь «правдоподобным» (plausible), но не «метрически точным» (metric) . Исследователь утверждает, что для полноценного социального опыта важна именно точность: малейшее искажение интонации или позиции звука может изменить смысл сказанного, превратив искреннюю улыбку в саркастичную .

👤 Проект Codec Avatars и роль машинного обучения 13:02

Работа по синтезу речи ведется в рамках масштабного проекта Codec Avatars . Это система, состоящая из энкодера и декодера:

Декодер: генерирует фотореалистичное 3D-представление лица и тела пользователя на основе данных, полученных при предварительном 3D-сканировании .
Энкодер: считывает ограниченные данные с сенсоров VR-шлема (камеры, направленные на глаза и рот) и восстанавливает по ним полную мимику .

Трудность заключается в том, что VR-шлем закрывает большую часть лица. Александр Ричард отмечает, что аудио здесь выступает важнейшей модальностью, заполняющей пробелы: например, невозможно произнести звуки «п» или «м», не сомкнув губы . Аудиосигнал дает нейросети подсказки о движениях языка и губ, которые сложно зафиксировать камерами под острым углом .

🧠 Нейронный синтез бинауральной речи: технический прорыв 19:59

Статья «Neural Synthesis of Binaural Speech From Mono Audio», получившая награду Best Paper на конференции ICLR, описывает механизм превращения обычного моно-сигнала с микрофона шлема в богатый пространственный звук .

Традиционно пространственный звук создавался с помощью линейных фильтров и функций HRTF (Head-Related Transfer Function), которые Александр Ричард называет «грубыми аппроксимациями» . Его команда предложила новый подход:

Проблема L2-loss: Исследователи обнаружили, что стандартная функция потерь L2 отлично оптимизирует амплитуду звука, но игнорирует фазу — то есть время смещения звуковой волны . В аудио это критично: малейшая ошибка фазы создает неприятный высокочастотный шум .
Neural Time Warping: Для решения проблемы команда интегрировала в нейросеть слой «дифференцируемого динамического изменения времени» (differentiable dynamic time warping) . Это позволяет модели физически корректно сдвигать компоненты аудиосигнала во времени, учитывая конечность скорости звука и причинно-следственную связь (звук не может быть услышан раньше, чем произнесен) .
Архитектура: За основу был взят Wavenet (разработка DeepMind 2016 года), который был адаптирован для работы с метрическими данными о положении головы в 3D-пространстве .

📊 Эксперименты и сбор данных: манекены и акустика 28:58

Сбор данных для обучения модели оказался сложной инженерной задачей. Изначально исследователи использовали манекены с силиконовыми ушами, имитирующими человеческую плоть . Однако первые попытки провалились из-за шума кондиционеров, звуков шагов и дыхания участников, которые нейросеть пыталась выучить как часть «реальности» .

Для получения «метрически чистых» данных команде пришлось:

Полностью звукоизолировать помещение и установить акустические панели .
Использовать системы захвата движений (motion tracking) для фиксации точных координат говорящего относительно ушей манекена .
Отказаться от статических записей в безэховых камерах в пользу динамических траекторий, чтобы учесть эффект Доплера и микро-изменения звука при движении .

Александр Ричард подчеркивает, что форма ушей уникальна, как отпечатки пальцев. В текущем исследовании использовалась «средняя» форма уха, что иногда приводит к ошибкам восприятия (например, путанице «перед-зад»), если у слушателя специфическое строение раковины .

🔮 Будущее: шумные комнаты и визуальный контекст 42:53

Несмотря на успех, технология все еще имеет ограничения. Модель обучалась в фиксированной акустической среде и пока не умеет автоматически адаптироваться к изменению геометрии комнаты (например, когда пользователь подходит вплотную к стене) .

Следующий этап исследований — интеграция аудио и видео для очистки сигнала. В реальности в комнате пользователя могут бегать дети или лаять собаки. Александр Ричард ставит задачу использовать камеры шлема, чтобы определять, какой звук исходит именно от движений рта пользователя, и отсекать всё лишнее, транслируя в VR только чистую, бинаурально синтезированную речь .

Ученый сетует на то, что сообщество исследователей аудио-визуальных моделей пока невелико: на конференции NeurIPS из тысяч работ лишь единицам (около 9) посвящены звуку . Он призывает молодых специалистов активнее идти в эту область, так как именно на стыке модальностей лежат решения для создания интернета будущего.