В новом эпизоде подкаста The Cognitive Revolution ведущий Нейтан Ленц обсуждает стремительную эволюцию генеративного видео с Джошуа Сюем, сооснователем и CEO HeyGen, и Виктором Лазарте, генеральным партнером венчурного фонда Benchmark. Речь идет о том, как технология, которая еще недавно казалась «развлекательной новинкой», превратилась в мощный бизнес-инструмент с годовой выручкой в $35 млн, и почему будущее видеопроизводства может полностью исключить использование традиционных камер и монтажных программ.
🎥 От Snap до HeyGen: ИИ как новая камера 6:17
История HeyGen началась в стенах компании Snap, где Джошуа Сюй работал с 2014 по 2020 год . Изначально он занимался рекламными системами, помогая рекламодателям оптимизировать возврат инвестиций, а позже перешел в команду Camera AI . В 2018 году Джошуа впервые столкнулся с технологией GAN (генеративно-состязательные сети), которая позволяла создавать реалистичные изображения несуществующих объектов .
По словам Джошуа Сюя, этот опыт привел его к трем ключевым выводам:
- Традиционное создание видеоконтента ограничено физическими возможностями человека: страхом перед камерой, отсутствием времени или навыков актерской игры .
- Мобильные камеры (начиная с iPhone 4) создали эпоху Instagram и TikTok, но ИИ способен совершить следующий скачок .
- Главная миссия HeyGen — «заменить камеру» искусственным интеллектом, позволяя генерировать контент без необходимости физических съемок .
Виктор Лазарте из Benchmark отмечает, что именно этот фокус на практических потребностях бизнеса выделил HeyGen на фоне конкурентов. В то время как другие компании стремились к созданию «моделей мира», Джошуа сосредоточился на качестве, последовательности и управляемости аватаров .
📈 Три столпа HeyGen: Создание, Локализация, Персонализация 10:45
Джошуа Сюй классифицирует использование платформы более чем 40 000 компаниями по трем основным направлениям: создание (Create), локализация (Localize) и персонализация (Personalize) .
1. Создание (Create): Бизнес использует готовые или собственные аватары для генерации обучающих роликов, демонстраций продуктов и анонсов . По оценке Джошуа, это позволяет компаниям, которым нужно 100 видео в месяц, вместо 10 дорогих роликов создавать полный объем контента быстрее и дешевле .
2. Локализация (Localize): Это одно из самых востребованных направлений. Технология позволяет переводить видео на более чем 100 языков, сохраняя голос оригинала и адаптируя мимику (lip-sync) .
- Традиционный дубляж стоит от $10 до $20 за минуту и часто выглядит неестественно .
- HeyGen снижает затраты в 10 раз и ускоряет процесс в 100 раз .
- Джошуа утверждает, что ИИ-видео с синхронизацией губ гораздо более вовлекающее, чем обычное видео с субтитрами или закадровым голосом .
3. Персонализация (Personalize): Компании, такие как Publicis Group, используют HeyGen для создания сотен тысяч персонализированных видеообращений для сотрудников . Джошуа считает, что в будущем видео будет генерироваться «на лету» под конкретного зрителя: два человека смогут смотреть один и тот же сюжет, поданный под разными углами и с разным акцентом на деталях .
🎮 Взгляд инвестора: Игровая механика и вовлеченность 31:55
Виктор Лазарте, опираясь на свой опыт в индустрии мобильных игр (компании Wildlife и Mana), проводит параллель между игровым маркетингом и ИИ-видео . В мобильных играх видеореклама является ключевым драйвером роста, где критически важны два показателя: стоимость и скорость итераций .
По мнению Лазарте:
- Реализм — это не конечная цель, важнее вовлеченность (engagement) .
- HeyGen позволяет компаниям тестировать множество вариантов контента за минимальные деньги, находя то, что действительно находит отклик у аудитории .
- Будущее за «потоковыми аватарами» (Streaming Avatars), которые способны вести диалог в реальном времени .
Виктор подчеркивает, что анонс GPT-4o показал потенциал голосового общения, но следующий шаг — это полноценный видеозвонок с ИИ-ботом . Это открывает двери для виртуальных друзей, ИИ-питомцев и новых форм развлечений .
🎬 Смерть «таймлайна» и новая архитектура видео 47:13
Джошуа Сюй высказывает радикальное мнение: традиционные видеоредакторы с временной шкалой (timeline editors) исчезнут в течение ближайших пяти лет . Он аргументирует это тем, что сама концепция таймлайна возникла из-за дороговизны съемок: камеру нужно было включать 20-30 раз, а затем выбирать лучшие куски .
В мире, где видео генерируется по запросу, парадигма редактирования должна измениться:
- HeyGen разрабатывает «движок композиции» (orchestration engine), который понимает нужды бренда и собирает воедино аватар, голос, музыку и B-roll (дополнительные кадры) .
- Проблема B-roll (фоновая музыка, переходы, анимация) — следующий большой вызов для компании .
- Вместо того чтобы двигать ползунки на шкале, пользователь будет взаимодействовать с ИИ, который обучается на его прошлых работах и понимает его стиль .
Технически Джошуа не верит в одну универсальную модель (как Sora) для всех бизнес-задач. Его подход — оркестрация множества специализированных моделей, которые решают конкретные проблемы, например, адаптацию освещения при смене фона, чтобы аватар выглядел естественно в любой сцене .
🛡️ Этический стандарт: Борьба с дипфейками 55:44
Особое внимание в беседе уделяется безопасности. Ведущий Нейтан Ленц, будучи опытным «ред-тимером» (тестировщиком уязвимостей) GPT-4, отмечает, что HeyGen обладает лучшей интегрированной системой защиты на рынке . В то время как другие платформы позволяют клонировать голоса политиков без ограничений, HeyGen внедрил многоуровневую стратегию «глубокой обороны» .
Основные принципы безопасности HeyGen, озвученные Джошуа Сюем:
- Запрет на создание аватаров политиков и знаменитостей .
- Обязательное получение согласия от первого лица в видеоформате для создания цифрового двойника .
- Верификация через динамические коды и проверка живыми модераторами .
- Автоматическая фильтрация контента на предмет ненависти, мошенничества и дезинформации .
Джошуа подчеркивает, что доверие — это не то, что замедляет бизнес, а критически важная часть продукта, особенно при работе с крупнейшими корпорациями мира (Fortune 500) . HeyGen даже использует сторонние API и собственные базы данных для идентификации публичных фигур, чтобы предотвратить несанкционированное использование их образов .
🔮 Итоги и перспективы 1:01:31
В завершение встречи участники сошлись во мнении, что индустрия находится в самом начале пути. Видео перестает быть статичным файлом и становится интерактивным, контекстным опытом.
Инвестиционные тезисы Виктора Лазарте и Benchmark:
- HeyGen — это не просто сервис аватаров, а новая платформа для бизнес-коммуникаций.
- Вертикальная интеграция (собственные модели + инструменты редактирования) создает высокий барьер для входа конкурентов.
- Этичный подход к ИИ является конкурентным преимуществом при масштабировании на Enterprise-рынке.
Джошуа Сюй резюмирует, что его цель — сделать создание профессионального видео таким же простым, как написание текста, при этом сохранив глубину и эмоциональность человеческого общения .