Махмуд Фелфель: «Будущее контента за текстовым режиссированием голоса»

The Cognitive Revolution 646 1 ч 20 мин 9 мин 24.03.2023
Главное

В эпоху стремительного развития генеративного искусственного интеллекта технологии синтеза речи совершают тектонический сдвиг: от привычного роботизированного чтения текста индустрия переходит к созданию ультрареалистичных цифровых актеров. В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Либенс обсуждает этот феномен с Махмудом Фелфелем, сооснователем и генеральным директором стартапа Play.ht. История компании наглядно иллюстрирует эволюционный путь технологического бизнеса — от простой интерфейсной надстройки над чужими API до создания собственных передовых ИИ-моделей, способных завоевать Голливуд и изменить правила игры в медиаиндустрии.

💡 Истоки: от десяти провалов к Chrome-расширению для Medium 6:09

Путь Махмуда Фелфеля и его сооснователя в сфере технологического предпринимательства начался классически для Кремниевой долины. Будучи профессиональными инженерами-программистами, партнеры постоянно экспериментировали, пытаясь нащупать жизнеспособный продукт. За пару лет совместной работы они запустили около десяти различных ИТ-проектов, и все они потерпели полную неудачу.

Идея, которая легла в основу Play.ht, родилась из личной потребности Махмуда. Он был заядлым потребителем аудиоконтента и имел две активные подписки на сервисы аудиокниг, включая платформу Audible. Однако Фелфель столкнулся с проблемой: он не мог найти удобного способа слушать текстовые статьи в интернете. Примерно четыре года назад блог-платформа Medium переживала расцвет, привлекая огромное количество независимых авторов, и Махмуд ежедневно читал десятки публикаций. Ему хотелось потреблять этот контент на ходу — во время пробежек или выполнения других повседневных дел, точно так же, как он делал это с аудиокнигами.

Изучая доступные на рынке технологические решения для автоматизации озвучки, Фелфель обнаружил облачные API синтеза речи, среди которых первым протестированным решением стал сервис IBM Watson. В то время большинство доступных на рынке движков Text-to-Speech (TTS) звучали крайне механистично, неестественно и были практически непригодны для длительного прослушивания. Голоса от IBM тоже оставались роботизированными, напоминая интерфейсы Alexa или Siri, однако их качество уже можно было толерантно воспринимать в течение получаса или часа.

Махмуд предложил своему партнеру автоматизировать процесс, и они создали MVP:

Продукт неожиданно получил мощный органический отклик. Пользователи начали массово скачивать расширение, активно оставлять отзывы и требовать мобильные приложения. Команда оперативно разработала версии для смартфонов и зафиксировала серьезный пользовательский интерес к потреблению «аудиостатей».

🔄 Переломные моменты: крах концепции «витамина» и переход к ИИ 11:12

Получив первую массовую аудиторию, основатели задумались о монетизации. Однако b2c-сегмент преподнес неприятный сюрприз: обычные потребители требовали все больше новых функций, но категорически отказывались за них платить, стремясь минимизировать свои расходы. Внедрение классической модели с аудиорекламой команда отвергла сразу — по признанию Махмуда, аудиореклама раздражала их самих, и они не хотели портить пользовательский опыт.

Вскоре партнеры заметили важную аномалию в аналитике: значительную часть активных пользователей составляли не просто читатели, а владельцы контентных площадок, профессиональные блогеры и авторы самого Medium с большими охватами. Они обращались к разработчикам с просьбой дать им возможность интегрировать этот аудиоплеер непосредственно в их текстовые блоги, чтобы их собственная аудитория могла слушать статьи.

Это наблюдение подтолкнуло Play.ht к радикальной смене бизнес-модели — переходу в сегмент B2B и созданию SaaS-продукта для издателей. Компания создала визуальный аудиоредактор, который позволял гибко управлять возможностями сторонних API (AWS Poly, Google Cloud, IBM Watson, а позже и Microsoft Azure), настраивать техническую разметку SSML и собирать готовые аудиоматериалы.

Тем не менее, взрывного роста бизнеса поначалу не случилось. По мнению Махмуда, продукт для озвучки статей на тот момент классифицировался рынком как «витамин», а не как критически необходимое «обезболивающее» (painkiller). Создание качественного текста само по себе являлось сложной задачей для издателя, а добавление аудиоверсии поверх него казалось лишь приятным, но необязательным бонусом.

Ситуация изменилась с началом пандемии COVID-19, когда на рынке резко вырос спрос на инструменты корпоративного удаленного обучения (Learning & Development) и интерактивные системы голосового отклика (IVR). Но главным барьером для экспансии в премиальные ниши оставалось качество звука. Крупные медиагиганты вроде The New York Times, бережно относящиеся к своему бренду, наотрез отказывались от стандартных роботизированных API, предлагаемых крупными бигтех-корпорациями. Игровые студии использовали коммерческий TTS исключительно для черновых набросков на этапе разработки, а для финального продакшена всегда нанимали живых актеров.

Махмуд Фелфель понял: чтобы бизнес совершил качественный скачок, необходимо решить фундаментальную проблему роботизированного звучания. Перед компанией встала дилемма — либо продать бизнес и заняться чем-то другим, либо начать инвестировать огромные ресурсы в создание собственной ИИ-технологии.

🧠 Архитектура и технические вызовы: укрощение недетерминированности 19:40

Долгое время создание собственных моделей внутри Play.ht не имело экономического смысла. Стандартные открытые архитектуры требовали развертывания сложного инхаус-отдела машинного обучения, но на выходе давали качество, идентичное готовым облачным решениям от Amazon или Microsoft. Команда непрерывно мониторила все научные публикации и поддерживала связь с авторами open-source проектов в сфере TTS, но технологического прорыва не происходило.

Перелом случился в начале 2022 года на фоне триумфа генеративных архитектур в смежных сферах — появления DALL-E, GPT-3 и диффуссионных моделей. Традиционный подход к синтезу речи опирался на контролируемое обучение (supervised learning): модель тренировали на условных 20 часах изолированных студийных записей одного диктора. В результате ИИ учился копировать конкретный голос, но совершенно не понимал, как устроен человеческий язык в целом. Любое изменение эмоции, акцента или стиля требовало закупки новых кастомных датасетов и сложной ручной разметки.

Новая парадигма Play.ht сделала ставку на самоконтролируемое обучение (self-supervised learning) на гигантских массивах данных. Нейросеть на базе архитектуры Трансформеров обучали на сотнях тысяч разнородных голосов из публичных источников, включая проект Common Voice от Mozilla, библиотеку аудиокниг VoxLab и открытые ресурсы интернета. ИИ учился говорить так, как это делают люди в реальной жизни.

Первая собственная модель Play.ht имела относительно скромный размер — около 300 миллионов параметров. Тем не менее, масштаб обучающих данных привел к возникновению эмерджентных свойств, которые ошеломили разработчиков. Модель самостоятельно сформировала внутренние языковые представления об эмоциях. Когда в тексте попадалась фраза «о нет!» (oh no), ИИ автоматически переходил на выраженный грустный тон, извлекая контекст прямо из семантики слов.

Однако команда столкнулась с тяжелыми инженерными вызовами:

  1. Катастрофически низкая скорость работы. На ранних этапах генерация одной минуты аудио занимала около 20 минут вычислительного времени на серверах. Команда потратила более полугода на оптимизацию инференса.
  2. Проблема недетерминированности. Большие трансформерные модели по своей природе склонны к случайным вариациям. Если в генерации изображений это является плюсом, то в речи абсолютная случайность деструктивна — модель могла каждый раз по-разному произносить аббревиатуры, бренды или сложные термины.
  3. Отсутствие готовой инфраструктуры. В мире не существовало готового софта для распределенного обучения больших речевых моделей. Инженерам Play.ht пришлось с нуля собирать пайплайн для обработки данных и их параллельной загрузки на множество GPU.

Для решения проблемы стабильности Play.ht привлекла специалистов с глубоким бэкграундом в обработке речи. Они внедрили фонетические представления слов и частично «заморозили» их произношение в архитектуре модели, сохранив естественную вариативность интонаций. При этом инженеры отказались от работы с чистыми звуковыми волнами (waveforms), используя вместо этого сжатые спектрограммы, которые на финальном этапе превращаются в аудио высокого разрешения с помощью вокодеров.

🎯 Уроки directability: почему пользователи сравнивают ИИ с людьми 33:14

Создание ультрареалистичного голоса полностью изменило паттерны поведения клиентов и менталитет рынка. Раньше пользователи сравнивали продукт с другими движками Text-to-Speech. Теперь же, по словам Махмуда, планка ожиданий взлетела до уровня живых дикторов, и клиенты начали требовать инструментов тонкого режиссирования — так называемой управляемости (directability).

Махмуд Фелфель отмечает, что создатели контента начали проводить в визуальном редакторе Play.ht до 12 часов в день. Они не просто автоматизируют рутину, а скрупулезно проектируют пользовательский опыт: собирают полноценные аудиокниги и сложные многоголосые подкасты, тщательно выстраивая динамику диалогов между персонажами. В таких условиях скорость обратной связи и интерактивность генерации становятся критическими факторами успешности продукта.

Чтобы удовлетворить запросы профессиональных креаторов, Play.ht разработала вторую модель — значительно превосходящую первую по объему параметров. Если старые TTS-системы требовали жесткой разметки через технические теги вроде SSML, то новая концепция Play.ht смещается в сторону промпт-инжиниринга и качественных текстовых описаний. По прогнозу Махмуда, в будущем авторы контента станут своеобразными режиссерами: вместо самостоятельной начитки или ручной сборки кодов они будут описывать сцену текстом — например, задавая контекст вроде «дедушка впервые видит своего новорожденного внука».

Новая модель позволяет напрямую управлять сложными атрибутами речи без потери идентичности голоса:

🚀 Текущий этап: South Park, экспансия языков и защита от дипфэйков 59:31

На текущем этапе Play.ht успешно завершила трансформацию в полноценную ИИ-компанию. Собственные генеративные модели, запущенные около пяти месяцев назад, уже обеспечивают порядка 60% всего объема генераций на платформе, обрабатывая миллионы запросов ежемесячно. Старые API от технологических гигантов по-прежнему используются, но в основном для покрытия редких языков и локальных акцентов, которых в унаследованной системе насчитывается более 130.

Технология Play.ht вышла на уровень полноценного промышленного продакшена. Компания сотрудничает со студией South Park Studios — голоса от Play.ht задействованы для озвучки персонажей в новых эпизодах знаменитого мультсериала. Также решение используется в проектах известного инвестора Рида Хоффмана, в частности, для создания его подкаста «Chats with GPT».

Стоимость обучения таких моделей исчисляется сотнями тысяч долларов. Для стартапа это существенные издержки, однако стабильный поток выручки, формировавшийся в течение трех лет работы на рынке, позволяет Play.ht полностью покрывать R&D-расходы из собственных средств. Оптимизированная инфраструктура инференса позволяет удерживать сотни кастомных моделей в памяти одной GPU и динамически переключать их на лету.

Особое внимание компания уделяет функции сверхбыстрого клонирования голоса. Сегодня пользователю достаточно загрузить всего 10 минут аудиозаписи (а в экспериментальных моделях — до 30 секунд), чтобы получить точную цифровую копию высокого разрешения. В ходе внутренних экспериментов команда Play.ht связала языковую модель ChatGPT со своими клонированными голосами для совершения автоматических исходящих звонков от лица менеджеров по продажам (SDR). По признанию Махмуда, ни один из реальных собеседников на другом конце провода не догадался, что разговаривает с роботом. В планах компании — выпуск мультиязычной базовой модели, способной осуществлять кросс-языковое клонирование, например, заставляя англоязычного актера говорить по-японски с сохранением его уникального тембра.

Достижение столь пугающего реализма заставило Play.ht выстроить эшелонированную систему безопасности. Махмуд Фелфель признает, что индустрия столкнулась с волной опасных мошенничеств, включая звонки родственникам от лица «попавших в беду» детей или фейковую рекламу в TikTok с голосом Джо Рогана. В ответ на эти вызовы компания внедрила жесткие протоколы:

Размышляя о долгосрочных перспективах, Махмуд выражает надежду, что общество постепенно выработает здоровый скептицизм к любому входящему аудио- и видеоконтенту, аналогично тому, как люди привыкли не доверять изображениям из-за существования Photoshop. С точки зрения устойчивости бизнеса, Фелфель убежден, что появление бесплатных или дешевых универсальных голосовых API от условной OpenAI не убьет Play.ht. Защитным рвом компании станут кастомные специализированные модели, обученные на приватных данных корпоративных клиентов (например, игровых студий или служб поддержки), строгие требования к конфиденциальности (on-premise инсталляции) и глубоко проработанный интерфейс визуального редактирования.

💬 Цитаты

«Вместо традиционного Text-to-Speech мы переходим на рынок человеческого голоса, и это открывает колоссальные возможности.»

Махмуд Фелфель 30:34

«Пользователи больше не сравнивают наши модели с роботами, они сравнивают их с живыми людьми.»

Махмуд Фелфель 36:03
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Text-to-Speech (TTS)
Технология синтеза речи, преобразующая печатный текст в звуковое аудиовещание.
SSML
Язык разметки синтеза речи, используемый для управления интонацией, паузами и произношением в традиционных движках.
Инференс
Процесс работы уже обученной ИИ-модели по генерации ответов или контента на основе входящих данных.
Вокодер
Технический компонент аудиопайплайна, который преобразует спектрограммы в чистую звуковую волну.
📊 Цифры
🗓 Хронология
  1. Около 4 лет назад Махмуд Фелфель создает Chrome-расширение для озвучки статей на Medium с использованием API IBM Watson.
  2. Начало 2022 года На фоне появления архитектур DALL-E и GPT-3 команда Play.ht принимает решение разрабатывать собственные большие речевые модели.
  3. Около 5 месяцев назад Play.ht официально запускает первую инхаус-модель ультрареалистичного синтеза речи, забирающую на себя 60% пользовательского трафика.
⚖️ Другая сторона
Искусственный интеллект Play.ht Махмуд Фелфель Text-to-Speech Клонирование голоса Generative AI