# Дэвид Пирс о технологиях ИИ-клонирования: «Я клонировал собственный голос»

Источник: https://www.youtube.com/watch?v=FttpxvBzobA
Канал: The Vergecast
Опубликовано: 18.09.2023

---

## Голос из машины: как технологии ИИ-клонирования меняют наше общение

[[JUMP:1:30]]

Технологии создания ИИ-копий голоса стали не только доступными для обычных пользователей, но и пугающе точными. Ведущий The Vergecast Дэвид Пирс в ходе эксперимента протестировал возможности клонирования собственного голоса с помощью популярных сервисов, чтобы разобраться, как это меняет медиаландшафт и какие этические вопросы ставит перед обществом.

### 🎙️ Почему аудио становится главным интерфейсом интернета
[[JUMP:1:30]]

По мнению Пирса, стремительный рост спроса на ИИ-голоса обусловлен тремя основными факторами:

* **Бум аудиоконтента:** Подкасты, голосовые сообщения и сгенерированные озвучки в TikTok стали неотъемлемой частью цифрового быта.
* **Инструменты редактирования:** Сервисы вроде Descript позволяют «исправлять» аудиозаписи, просто редактируя текст транскрипта. Если спикер оговорился, система заменяет фрагмент сгенерированным аудио, что создает эффект «магии».
* **Чтение текстов:** Компании, например 11 Labs, предлагают ИИ-дикторов для озвучивания статей на новостных сайтах или целых аудиокниг. Качество синтеза за последние годы совершило колоссальный скачок: от монотонных роботов типа Sophia (2016) до интонационно богатых ИИ-моделей.

### 🧪 Эксперимент: насколько хороши ИИ-клоны?
[[JUMP:10:27]]

Дэвид Пирс провел сравнительный тест четырех инструментов, обучив их на своем голосе, записанном во время участия в подкасте:

1.  **PodCastle:** Процесс обучения занял около 70 фраз. Результат оказался неубедительным: голос звучал механически и не передавал естественных интонаций.
2.  **Descript:** Потребовалось около четырех часов аудиоматериалов для обучения. Модель показала неплохую динамику речи, но периодически «проглатывала» слова и не всегда звучала естественно.
3.  **11 Labs:** Процесс оказался самым быстрым — потребовалось около 15 минут аудио. По словам Пирса, эта модель выдала самый поразительный результат, который «вызвал мурашки» благодаря точной передаче пауз и интонаций. Однако при повторной генерации того же текста качество иногда снижалось.
4.  **Apple Personal Voice:** Функция в iOS 17 требует чтения 150 фраз и долгого обучения на устройстве. Хотя результат звучит достойно, Пирс оценил его как менее впечатляющий, чем у 11 Labs.

### ⚖️ Темная сторона прогресса: этика и право
[[JUMP:5:29]]

Появление технологий ИИ-клонирования влечет за собой серьезные последствия:

* **Угроза профессиям:** Дикторы аудиокниг опасаются, что их голоса используются для тренировки алгоритмов, которые в будущем их заменят. Юридические споры, начавшиеся еще с иска издателей к Audible в 2019 году, продолжаются до сих пор.
* **Вопросы согласия:** Использование ИИ для воссоздания голосов умерших знаменитостей (например, Энтони Бурдена в документальном фильме «Roadrunner») вызывает у аудитории смешанные чувства — от восхищения технологией до ощущения «дискомфорта».
* **Голливудский конфликт:** Одной из причин забастовок в Голливуде стало опасение актеров, что их внешность и голос будут оцифрованы для бессрочного использования в фильмах без их участия.

### ♿ Новые возможности: доступность и перевод
[[JUMP:8:03]]

Несмотря на этические риски, технология несет и значительную пользу:

* **Live Speech от Apple:** Позволяет людям с нарушениями речи генерировать живую речь в телефонных разговорах, используя свой «цифровой клон».
* **Синхронный перевод:** В будущем ИИ может позволить людям выступать на разных языках, сохраняя при этом свой собственный тембр голоса.