Дэвид Пирс о технологиях ИИ-клонирования: «Я клонировал собственный голос»

Голос из машины: как технологии ИИ-клонирования меняют наше общение 1:30

Технологии создания ИИ-копий голоса стали не только доступными для обычных пользователей, но и пугающе точными. Ведущий The Vergecast Дэвид Пирс в ходе эксперимента протестировал возможности клонирования собственного голоса с помощью популярных сервисов, чтобы разобраться, как это меняет медиаландшафт и какие этические вопросы ставит перед обществом.

🎙️ Почему аудио становится главным интерфейсом интернета 1:30

По мнению Пирса, стремительный рост спроса на ИИ-голоса обусловлен тремя основными факторами:

Бум аудиоконтента: Подкасты, голосовые сообщения и сгенерированные озвучки в TikTok стали неотъемлемой частью цифрового быта.
Инструменты редактирования: Сервисы вроде Descript позволяют «исправлять» аудиозаписи, просто редактируя текст транскрипта. Если спикер оговорился, система заменяет фрагмент сгенерированным аудио, что создает эффект «магии».
Чтение текстов: Компании, например 11 Labs, предлагают ИИ-дикторов для озвучивания статей на новостных сайтах или целых аудиокниг. Качество синтеза за последние годы совершило колоссальный скачок: от монотонных роботов типа Sophia (2016) до интонационно богатых ИИ-моделей.

🧪 Эксперимент: насколько хороши ИИ-клоны? 10:27

Дэвид Пирс провел сравнительный тест четырех инструментов, обучив их на своем голосе, записанном во время участия в подкасте:

PodCastle: Процесс обучения занял около 70 фраз. Результат оказался неубедительным: голос звучал механически и не передавал естественных интонаций.
Descript: Потребовалось около четырех часов аудиоматериалов для обучения. Модель показала неплохую динамику речи, но периодически «проглатывала» слова и не всегда звучала естественно.
11 Labs: Процесс оказался самым быстрым — потребовалось около 15 минут аудио. По словам Пирса, эта модель выдала самый поразительный результат, который «вызвал мурашки» благодаря точной передаче пауз и интонаций. Однако при повторной генерации того же текста качество иногда снижалось.
Apple Personal Voice: Функция в iOS 17 требует чтения 150 фраз и долгого обучения на устройстве. Хотя результат звучит достойно, Пирс оценил его как менее впечатляющий, чем у 11 Labs.

⚖️ Темная сторона прогресса: этика и право 5:29

Появление технологий ИИ-клонирования влечет за собой серьезные последствия:

Угроза профессиям: Дикторы аудиокниг опасаются, что их голоса используются для тренировки алгоритмов, которые в будущем их заменят. Юридические споры, начавшиеся еще с иска издателей к Audible в 2019 году, продолжаются до сих пор.
Вопросы согласия: Использование ИИ для воссоздания голосов умерших знаменитостей (например, Энтони Бурдена в документальном фильме «Roadrunner») вызывает у аудитории смешанные чувства — от восхищения технологией до ощущения «дискомфорта».
Голливудский конфликт: Одной из причин забастовок в Голливуде стало опасение актеров, что их внешность и голос будут оцифрованы для бессрочного использования в фильмах без их участия.

♿ Новые возможности: доступность и перевод 8:03

Несмотря на этические риски, технология несет и значительную пользу:

Live Speech от Apple: Позволяет людям с нарушениями речи генерировать живую речь в телефонных разговорах, используя свой «цифровой клон».
Синхронный перевод: В будущем ИИ может позволить людям выступать на разных языках, сохраняя при этом свой собственный тембр голоса.