Дэвид Пирс о технологиях ИИ-клонирования: «Я клонировал собственный голос»

The Vergecast 1,1 тыс. 22 мин 2 мин 18.09.2023
Главное

Голос из машины: как технологии ИИ-клонирования меняют наше общение 1:30

Технологии создания ИИ-копий голоса стали не только доступными для обычных пользователей, но и пугающе точными. Ведущий The Vergecast Дэвид Пирс в ходе эксперимента протестировал возможности клонирования собственного голоса с помощью популярных сервисов, чтобы разобраться, как это меняет медиаландшафт и какие этические вопросы ставит перед обществом.

🎙️ Почему аудио становится главным интерфейсом интернета 1:30

По мнению Пирса, стремительный рост спроса на ИИ-голоса обусловлен тремя основными факторами:

🧪 Эксперимент: насколько хороши ИИ-клоны? 10:27

Дэвид Пирс провел сравнительный тест четырех инструментов, обучив их на своем голосе, записанном во время участия в подкасте:

  1. PodCastle: Процесс обучения занял около 70 фраз. Результат оказался неубедительным: голос звучал механически и не передавал естественных интонаций.
  2. Descript: Потребовалось около четырех часов аудиоматериалов для обучения. Модель показала неплохую динамику речи, но периодически «проглатывала» слова и не всегда звучала естественно.
  3. 11 Labs: Процесс оказался самым быстрым — потребовалось около 15 минут аудио. По словам Пирса, эта модель выдала самый поразительный результат, который «вызвал мурашки» благодаря точной передаче пауз и интонаций. Однако при повторной генерации того же текста качество иногда снижалось.
  4. Apple Personal Voice: Функция в iOS 17 требует чтения 150 фраз и долгого обучения на устройстве. Хотя результат звучит достойно, Пирс оценил его как менее впечатляющий, чем у 11 Labs.

⚖️ Темная сторона прогресса: этика и право 5:29

Появление технологий ИИ-клонирования влечет за собой серьезные последствия:

♿ Новые возможности: доступность и перевод 8:03

Несмотря на этические риски, технология несет и значительную пользу:

💬 Цитаты

«ИИ-голоса — это одна из тех вещей, где чем лучше они становятся, тем страннее они ощущаются.»

Дэвид Пирс 19:52

«Это всё равно, что иметь в распоряжении инструменты, которые позволяют редактировать аудио, просто удаляя слова в транскрипте.»

Дэвид Пирс 2:11
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
ИИ-клонирование
Процесс создания синтетической копии человеческого голоса с помощью нейросетей.
Live Speech
Функция в iOS, позволяющая озвучивать набранный текст голосом пользователя в реальном времени.
Транскрипт
Текстовая расшифровка аудиозаписи или видео.
📊 Цифры
🗓 Хронология
  1. 2016 Робот Sophia продемонстрировала ранние, роботизированные возможности речевого синтеза.
  2. 2019 Издатели подали судебный иск против Audible из-за ИИ-озвучки.
  3. 2020 Урегулирование спора между Audible и издателями.
  4. 2023 Apple запустила функцию Live Speech в iOS 17.
⚖️ Другая сторона
Искусственный интеллект ElevenLabs Apple Descript The Vergecast ИИ-клонирование