# Как Facebook Reality Labs синтезирует бинауральную речь из моно-аудио с помощью нейросетей

Источник: https://www.youtube.com/watch?v=aWxmQKm_s8Q
Канал: The TWIML AI Podcast
Опубликовано: 30.08.2021

---

В современном мире видеоконференций мы привыкли видеть собеседников в виде плоских «говорящих голов» в маленьких прямоугольниках экрана. Александр Ричард, исследователь из Facebook Reality Labs (ныне часть Meta), работает над тем, чтобы стереть границы между физическим и виртуальным присутствием, создавая технологию фотореалистичных аватаров, которые не только выглядят, но и звучат неотличимо от реальности.

## 🎧 Миссия телеприсутствия: от моно к бинауральному звуку
[[JUMP:02:49]]

Работа Александра Ричарда в Facebook Reality Labs сосредоточена на концепции «социального телеприсутствия» [02:49]. Конечная цель — достичь такого уровня погружения в VR, при котором пользователь не чувствует разницы между разговором вживую и виртуальной встречей. Для этого недостаточно просто качественной картинки; звук играет критическую роль в преодолении «зловещей долины» (uncanny valley) — эффекта, когда почти человекоподобный объект вызывает инстинктивное отторжение из-за мелких несоответствий [08:37].

Ключевой проблемой современных систем является использование моно-аудио. В реальности мы слышим звук двумя ушами (бинаурально), что позволяет мозгу определять направление, расстояние и даже материал поверхностей вокруг. По словам Александра Ричарда, упустить бинауральность — значит потерять половину полезного сигнала [07:07]. В то время как игровая индустрия давно использует пространственный звук, он часто является лишь «правдоподобным» (plausible), но не «метрически точным» (metric) [07:47]. Исследователь утверждает, что для полноценного социального опыта важна именно точность: малейшее искажение интонации или позиции звука может изменить смысл сказанного, превратив искреннюю улыбку в саркастичную [10:09].

## 👤 Проект Codec Avatars и роль машинного обучения
[[JUMP:13:02]]

Работа по синтезу речи ведется в рамках масштабного проекта **Codec Avatars** [13:02]. Это система, состоящая из энкодера и декодера:

*   **Декодер:** генерирует фотореалистичное 3D-представление лица и тела пользователя на основе данных, полученных при предварительном 3D-сканировании [14:17].
*   **Энкодер:** считывает ограниченные данные с сенсоров VR-шлема (камеры, направленные на глаза и рот) и восстанавливает по ним полную мимику [15:10].

Трудность заключается в том, что VR-шлем закрывает большую часть лица. Александр Ричард отмечает, что аудио здесь выступает важнейшей модальностью, заполняющей пробелы: например, невозможно произнести звуки «п» или «м», не сомкнув губы [06:27]. Аудиосигнал дает нейросети подсказки о движениях языка и губ, которые сложно зафиксировать камерами под острым углом [06:00].

## 🧠 Нейронный синтез бинауральной речи: технический прорыв
[[JUMP:19:59]]

Статья «Neural Synthesis of Binaural Speech From Mono Audio», получившая награду Best Paper на конференции ICLR, описывает механизм превращения обычного моно-сигнала с микрофона шлема в богатый пространственный звук [19:59].

Традиционно пространственный звук создавался с помощью линейных фильтров и функций HRTF (Head-Related Transfer Function), которые Александр Ричард называет «грубыми аппроксимациями» [20:25]. Его команда предложила новый подход:

1.  **Проблема L2-loss:** Исследователи обнаружили, что стандартная функция потерь L2 отлично оптимизирует амплитуду звука, но игнорирует фазу — то есть время смещения звуковой волны [24:17]. В аудио это критично: малейшая ошибка фазы создает неприятный высокочастотный шум [23:50].
2.  **Neural Time Warping:** Для решения проблемы команда интегрировала в нейросеть слой «дифференцируемого динамического изменения времени» (differentiable dynamic time warping) [36:06]. Это позволяет модели физически корректно сдвигать компоненты аудиосигнала во времени, учитывая конечность скорости звука и причинно-следственную связь (звук не может быть услышан раньше, чем произнесен) [36:18].
3.  **Архитектура:** За основу был взят **Wavenet** (разработка DeepMind 2016 года), который был адаптирован для работы с метрическими данными о положении головы в 3D-пространстве [34:40].

## 📊 Эксперименты и сбор данных: манекены и акустика
[[JUMP:28:58]]

Сбор данных для обучения модели оказался сложной инженерной задачей. Изначально исследователи использовали манекены с силиконовыми ушами, имитирующими человеческую плоть [29:11]. Однако первые попытки провалились из-за шума кондиционеров, звуков шагов и дыхания участников, которые нейросеть пыталась выучить как часть «реальности» [29:49].

Для получения «метрически чистых» данных команде пришлось:

*   Полностью звукоизолировать помещение и установить акустические панели [30:42].
*   Использовать системы захвата движений (motion tracking) для фиксации точных координат говорящего относительно ушей манекена [29:24].
*   Отказаться от статических записей в безэховых камерах в пользу динамических траекторий, чтобы учесть эффект Доплера и микро-изменения звука при движении [31:33].

Александр Ричард подчеркивает, что форма ушей уникальна, как отпечатки пальцев. В текущем исследовании использовалась «средняя» форма уха, что иногда приводит к ошибкам восприятия (например, путанице «перед-зад»), если у слушателя специфическое строение раковины [40:16].

## 🔮 Будущее: шумные комнаты и визуальный контекст
[[JUMP:42:53]]

Несмотря на успех, технология все еще имеет ограничения. Модель обучалась в фиксированной акустической среде и пока не умеет автоматически адаптироваться к изменению геометрии комнаты (например, когда пользователь подходит вплотную к стене) [38:02].

Следующий этап исследований — интеграция аудио и видео для очистки сигнала. В реальности в комнате пользователя могут бегать дети или лаять собаки. Александр Ричард ставит задачу использовать камеры шлема, чтобы определять, какой звук исходит именно от движений рта пользователя, и отсекать всё лишнее, транслируя в VR только чистую, бинаурально синтезированную речь [43:44].

Ученый сетует на то, что сообщество исследователей аудио-визуальных моделей пока невелико: на конференции NeurIPS из тысяч работ лишь единицам (около 9) посвящены звуку [46:08]. Он призывает молодых специалистов активнее идти в эту область, так как именно на стыке модальностей лежат решения для создания интернета будущего.