Голос из машины: как технологии ИИ-клонирования меняют наше общение 1:30
Технологии создания ИИ-копий голоса стали не только доступными для обычных пользователей, но и пугающе точными. Ведущий The Vergecast Дэвид Пирс в ходе эксперимента протестировал возможности клонирования собственного голоса с помощью популярных сервисов, чтобы разобраться, как это меняет медиаландшафт и какие этические вопросы ставит перед обществом.
🎙️ Почему аудио становится главным интерфейсом интернета 1:30
По мнению Пирса, стремительный рост спроса на ИИ-голоса обусловлен тремя основными факторами:
- Бум аудиоконтента: Подкасты, голосовые сообщения и сгенерированные озвучки в TikTok стали неотъемлемой частью цифрового быта.
- Инструменты редактирования: Сервисы вроде Descript позволяют «исправлять» аудиозаписи, просто редактируя текст транскрипта. Если спикер оговорился, система заменяет фрагмент сгенерированным аудио, что создает эффект «магии».
- Чтение текстов: Компании, например 11 Labs, предлагают ИИ-дикторов для озвучивания статей на новостных сайтах или целых аудиокниг. Качество синтеза за последние годы совершило колоссальный скачок: от монотонных роботов типа Sophia (2016) до интонационно богатых ИИ-моделей.
🧪 Эксперимент: насколько хороши ИИ-клоны? 10:27
Дэвид Пирс провел сравнительный тест четырех инструментов, обучив их на своем голосе, записанном во время участия в подкасте:
- PodCastle: Процесс обучения занял около 70 фраз. Результат оказался неубедительным: голос звучал механически и не передавал естественных интонаций.
- Descript: Потребовалось около четырех часов аудиоматериалов для обучения. Модель показала неплохую динамику речи, но периодически «проглатывала» слова и не всегда звучала естественно.
- 11 Labs: Процесс оказался самым быстрым — потребовалось около 15 минут аудио. По словам Пирса, эта модель выдала самый поразительный результат, который «вызвал мурашки» благодаря точной передаче пауз и интонаций. Однако при повторной генерации того же текста качество иногда снижалось.
- Apple Personal Voice: Функция в iOS 17 требует чтения 150 фраз и долгого обучения на устройстве. Хотя результат звучит достойно, Пирс оценил его как менее впечатляющий, чем у 11 Labs.
⚖️ Темная сторона прогресса: этика и право 5:29
Появление технологий ИИ-клонирования влечет за собой серьезные последствия:
- Угроза профессиям: Дикторы аудиокниг опасаются, что их голоса используются для тренировки алгоритмов, которые в будущем их заменят. Юридические споры, начавшиеся еще с иска издателей к Audible в 2019 году, продолжаются до сих пор.
- Вопросы согласия: Использование ИИ для воссоздания голосов умерших знаменитостей (например, Энтони Бурдена в документальном фильме «Roadrunner») вызывает у аудитории смешанные чувства — от восхищения технологией до ощущения «дискомфорта».
- Голливудский конфликт: Одной из причин забастовок в Голливуде стало опасение актеров, что их внешность и голос будут оцифрованы для бессрочного использования в фильмах без их участия.
♿ Новые возможности: доступность и перевод 8:03
Несмотря на этические риски, технология несет и значительную пользу:
- Live Speech от Apple: Позволяет людям с нарушениями речи генерировать живую речь в телефонных разговорах, используя свой «цифровой клон».
- Синхронный перевод: В будущем ИИ может позволить людям выступать на разных языках, сохраняя при этом свой собственный тембр голоса.