# Глава HeyGen и партнер Benchmark о будущем видео: ИИ-аватары, конец эпохи монтажа и безопасность

Источник: https://www.youtube.com/watch?v=5ShB2P3cuuA
Канал: The Cognitive Revolution
Опубликовано: 02.08.2024

---

В новом эпизоде подкаста *The Cognitive Revolution* ведущий Нейтан Ленц обсуждает стремительную эволюцию генеративного видео с Джошуа Сюем, сооснователем и CEO HeyGen, и Виктором Лазарте, генеральным партнером венчурного фонда Benchmark. Речь идет о том, как технология, которая еще недавно казалась «развлекательной новинкой», превратилась в мощный бизнес-инструмент с годовой выручкой в $35 млн, и почему будущее видеопроизводства может полностью исключить использование традиционных камер и монтажных программ.

## 🎥 От Snap до HeyGen: ИИ как новая камера
[[JUMP:06:17]]

История HeyGen началась в стенах компании Snap, где Джошуа Сюй работал с 2014 по 2020 год [06:17]. Изначально он занимался рекламными системами, помогая рекламодателям оптимизировать возврат инвестиций, а позже перешел в команду Camera AI [06:31]. В 2018 году Джошуа впервые столкнулся с технологией GAN (генеративно-состязательные сети), которая позволяла создавать реалистичные изображения несуществующих объектов [06:59].

По словам Джошуа Сюя, этот опыт привел его к трем ключевым выводам:

*   Традиционное создание видеоконтента ограничено физическими возможностями человека: страхом перед камерой, отсутствием времени или навыков актерской игры [07:54].
*   Мобильные камеры (начиная с iPhone 4) создали эпоху Instagram и TikTok, но ИИ способен совершить следующий скачок [07:27].
*   Главная миссия HeyGen — «заменить камеру» искусственным интеллектом, позволяя генерировать контент без необходимости физических съемок [08:06].

Виктор Лазарте из Benchmark отмечает, что именно этот фокус на практических потребностях бизнеса выделил HeyGen на фоне конкурентов. В то время как другие компании стремились к созданию «моделей мира», Джошуа сосредоточился на качестве, последовательности и управляемости аватаров [02:35].

## 📈 Три столпа HeyGen: Создание, Локализация, Персонализация
[[JUMP:10:45]]

Джошуа Сюй классифицирует использование платформы более чем 40 000 компаниями по трем основным направлениям: создание (Create), локализация (Localize) и персонализация (Personalize) [10:45].

**1. Создание (Create):**
Бизнес использует готовые или собственные аватары для генерации обучающих роликов, демонстраций продуктов и анонсов [11:10]. По оценке Джошуа, это позволяет компаниям, которым нужно 100 видео в месяц, вместо 10 дорогих роликов создавать полный объем контента быстрее и дешевле [21:10].

**2. Локализация (Localize):**
Это одно из самых востребованных направлений. Технология позволяет переводить видео на более чем 100 языков, сохраняя голос оригинала и адаптируя мимику (lip-sync) [11:24]. 

*   Традиционный дубляж стоит от $10 до $20 за минуту и часто выглядит неестественно [14:40].
*   HeyGen снижает затраты в 10 раз и ускоряет процесс в 100 раз [15:09].
*   Джошуа утверждает, что ИИ-видео с синхронизацией губ гораздо более вовлекающее, чем обычное видео с субтитрами или закадровым голосом [15:47].

**3. Персонализация (Personalize):**
Компании, такие как Publicis Group, используют HeyGen для создания сотен тысяч персонализированных видеообращений для сотрудников [12:29]. Джошуа считает, что в будущем видео будет генерироваться «на лету» под конкретного зрителя: два человека смогут смотреть один и тот же сюжет, поданный под разными углами и с разным акцентом на деталях [40:07].

## 🎮 Взгляд инвестора: Игровая механика и вовлеченность
[[JUMP:31:55]]

Виктор Лазарте, опираясь на свой опыт в индустрии мобильных игр (компании Wildlife и Mana), проводит параллель между игровым маркетингом и ИИ-видео [32:21]. В мобильных играх видеореклама является ключевым драйвером роста, где критически важны два показателя: стоимость и скорость итераций [33:40].

По мнению Лазарте:

*   Реализм — это не конечная цель, важнее вовлеченность (engagement) [32:08].
*   HeyGen позволяет компаниям тестировать множество вариантов контента за минимальные деньги, находя то, что действительно находит отклик у аудитории [33:40].
*   Будущее за «потоковыми аватарами» (Streaming Avatars), которые способны вести диалог в реальном времени [34:18].

Виктор подчеркивает, что анонс GPT-4o показал потенциал голосового общения, но следующий шаг — это полноценный видеозвонок с ИИ-ботом [35:10]. Это открывает двери для виртуальных друзей, ИИ-питомцев и новых форм развлечений [35:23].

## 🎬 Смерть «таймлайна» и новая архитектура видео
[[JUMP:47:13]]

Джошуа Сюй высказывает радикальное мнение: традиционные видеоредакторы с временной шкалой (timeline editors) исчезнут в течение ближайших пяти лет [47:13]. Он аргументирует это тем, что сама концепция таймлайна возникла из-за дороговизны съемок: камеру нужно было включать 20-30 раз, а затем выбирать лучшие куски [47:26].

В мире, где видео генерируется по запросу, парадигма редактирования должна измениться:

*   HeyGen разрабатывает «движок композиции» (orchestration engine), который понимает нужды бренда и собирает воедино аватар, голос, музыку и B-roll (дополнительные кадры) [48:35].
*   Проблема B-roll (фоновая музыка, переходы, анимация) — следующий большой вызов для компании [44:18].
*   Вместо того чтобы двигать ползунки на шкале, пользователь будет взаимодействовать с ИИ, который обучается на его прошлых работах и понимает его стиль [49:26].

Технически Джошуа не верит в одну универсальную модель (как Sora) для всех бизнес-задач. Его подход — оркестрация множества специализированных моделей, которые решают конкретные проблемы, например, адаптацию освещения при смене фона, чтобы аватар выглядел естественно в любой сцене [51:40].

## 🛡️ Этический стандарт: Борьба с дипфейками
[[JUMP:55:44]]

Особое внимание в беседе уделяется безопасности. Ведущий Нейтан Ленц, будучи опытным «ред-тимером» (тестировщиком уязвимостей) GPT-4, отмечает, что HeyGen обладает лучшей интегрированной системой защиты на рынке [58:29]. В то время как другие платформы позволяют клонировать голоса политиков без ограничений, HeyGen внедрил многоуровневую стратегию «глубокой обороны» [58:56].

Основные принципы безопасности HeyGen, озвученные Джошуа Сюем:

*   Запрет на создание аватаров политиков и знаменитостей [57:37].
*   Обязательное получение согласия от первого лица в видеоформате для создания цифрового двойника [57:37].
*   Верификация через динамические коды и проверка живыми модераторами [57:49].
*   Автоматическая фильтрация контента на предмет ненависти, мошенничества и дезинформации [58:03].

Джошуа подчеркивает, что доверие — это не то, что замедляет бизнес, а критически важная часть продукта, особенно при работе с крупнейшими корпорациями мира (Fortune 500) [57:23]. HeyGen даже использует сторонние API и собственные базы данных для идентификации публичных фигур, чтобы предотвратить несанкционированное использование их образов [1:00:13].

## 🔮 Итоги и перспективы
[[JUMP:1:01:31]]

В завершение встречи участники сошлись во мнении, что индустрия находится в самом начале пути. Видео перестает быть статичным файлом и становится интерактивным, контекстным опытом.

Инвестиционные тезисы Виктора Лазарте и Benchmark:

*   HeyGen — это не просто сервис аватаров, а новая платформа для бизнес-коммуникаций.
*   Вертикальная интеграция (собственные модели + инструменты редактирования) создает высокий барьер для входа конкурентов.
*   Этичный подход к ИИ является конкурентным преимуществом при масштабировании на Enterprise-рынке.

Джошуа Сюй резюмирует, что его цель — сделать создание профессионального видео таким же простым, как написание текста, при этом сохранив глубину и эмоциональность человеческого общения [1:02:10].