Глава HeyGen и партнер Benchmark о будущем видео: ИИ-аватары, конец эпохи монтажа и безопасность

The Cognitive Revolution 1,2 тыс. 1 ч 3 мин 5 мин 02.08.2024
Главное

В новом эпизоде подкаста The Cognitive Revolution ведущий Нейтан Ленц обсуждает стремительную эволюцию генеративного видео с Джошуа Сюем, сооснователем и CEO HeyGen, и Виктором Лазарте, генеральным партнером венчурного фонда Benchmark. Речь идет о том, как технология, которая еще недавно казалась «развлекательной новинкой», превратилась в мощный бизнес-инструмент с годовой выручкой в $35 млн, и почему будущее видеопроизводства может полностью исключить использование традиционных камер и монтажных программ.

🎥 От Snap до HeyGen: ИИ как новая камера 6:17

История HeyGen началась в стенах компании Snap, где Джошуа Сюй работал с 2014 по 2020 год . Изначально он занимался рекламными системами, помогая рекламодателям оптимизировать возврат инвестиций, а позже перешел в команду Camera AI . В 2018 году Джошуа впервые столкнулся с технологией GAN (генеративно-состязательные сети), которая позволяла создавать реалистичные изображения несуществующих объектов .

По словам Джошуа Сюя, этот опыт привел его к трем ключевым выводам:

Виктор Лазарте из Benchmark отмечает, что именно этот фокус на практических потребностях бизнеса выделил HeyGen на фоне конкурентов. В то время как другие компании стремились к созданию «моделей мира», Джошуа сосредоточился на качестве, последовательности и управляемости аватаров .

📈 Три столпа HeyGen: Создание, Локализация, Персонализация 10:45

Джошуа Сюй классифицирует использование платформы более чем 40 000 компаниями по трем основным направлениям: создание (Create), локализация (Localize) и персонализация (Personalize) .

1. Создание (Create): Бизнес использует готовые или собственные аватары для генерации обучающих роликов, демонстраций продуктов и анонсов . По оценке Джошуа, это позволяет компаниям, которым нужно 100 видео в месяц, вместо 10 дорогих роликов создавать полный объем контента быстрее и дешевле .

2. Локализация (Localize): Это одно из самых востребованных направлений. Технология позволяет переводить видео на более чем 100 языков, сохраняя голос оригинала и адаптируя мимику (lip-sync) .

3. Персонализация (Personalize): Компании, такие как Publicis Group, используют HeyGen для создания сотен тысяч персонализированных видеообращений для сотрудников . Джошуа считает, что в будущем видео будет генерироваться «на лету» под конкретного зрителя: два человека смогут смотреть один и тот же сюжет, поданный под разными углами и с разным акцентом на деталях .

🎮 Взгляд инвестора: Игровая механика и вовлеченность 31:55

Виктор Лазарте, опираясь на свой опыт в индустрии мобильных игр (компании Wildlife и Mana), проводит параллель между игровым маркетингом и ИИ-видео . В мобильных играх видеореклама является ключевым драйвером роста, где критически важны два показателя: стоимость и скорость итераций .

По мнению Лазарте:

Виктор подчеркивает, что анонс GPT-4o показал потенциал голосового общения, но следующий шаг — это полноценный видеозвонок с ИИ-ботом . Это открывает двери для виртуальных друзей, ИИ-питомцев и новых форм развлечений .

🎬 Смерть «таймлайна» и новая архитектура видео 47:13

Джошуа Сюй высказывает радикальное мнение: традиционные видеоредакторы с временной шкалой (timeline editors) исчезнут в течение ближайших пяти лет . Он аргументирует это тем, что сама концепция таймлайна возникла из-за дороговизны съемок: камеру нужно было включать 20-30 раз, а затем выбирать лучшие куски .

В мире, где видео генерируется по запросу, парадигма редактирования должна измениться:

Технически Джошуа не верит в одну универсальную модель (как Sora) для всех бизнес-задач. Его подход — оркестрация множества специализированных моделей, которые решают конкретные проблемы, например, адаптацию освещения при смене фона, чтобы аватар выглядел естественно в любой сцене .

🛡️ Этический стандарт: Борьба с дипфейками 55:44

Особое внимание в беседе уделяется безопасности. Ведущий Нейтан Ленц, будучи опытным «ред-тимером» (тестировщиком уязвимостей) GPT-4, отмечает, что HeyGen обладает лучшей интегрированной системой защиты на рынке . В то время как другие платформы позволяют клонировать голоса политиков без ограничений, HeyGen внедрил многоуровневую стратегию «глубокой обороны» .

Основные принципы безопасности HeyGen, озвученные Джошуа Сюем:

Джошуа подчеркивает, что доверие — это не то, что замедляет бизнес, а критически важная часть продукта, особенно при работе с крупнейшими корпорациями мира (Fortune 500) . HeyGen даже использует сторонние API и собственные базы данных для идентификации публичных фигур, чтобы предотвратить несанкционированное использование их образов .

🔮 Итоги и перспективы 1:01:31

В завершение встречи участники сошлись во мнении, что индустрия находится в самом начале пути. Видео перестает быть статичным файлом и становится интерактивным, контекстным опытом.

Инвестиционные тезисы Виктора Лазарте и Benchmark:

Джошуа Сюй резюмирует, что его цель — сделать создание профессионального видео таким же простым, как написание текста, при этом сохранив глубину и эмоциональность человеческого общения .

💬 Цитаты

«Мы хотели заменить камеру, потому что считаем, что ИИ может стать новой камерой.»

Джошуа Сюй 08:06

«У меня есть очень агрессивное мнение, что таймлайн-редакторы исчезнут через пять лет.»

Джошуа Сюй 47:13

«Доверие и безопасность — это не то, что нас замедляет, это критически важная часть нашего продукта.»

Джошуа Сюй 56:55
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
GAN (Generative Adversarial Network)
Алгоритм машинного обучения, построенный на комбинации двух нейронных сетей, одна из которых генерирует образцы, а другая старается отличить правильные от неправильных.
B-roll
Дополнительные кадры, которые вставляются в видео для иллюстрации слов говорящего или скрытия склеек.
Lip-sync
Технология синхронизации движения губ персонажа с произносимым звуком.
Red-teaming
Процесс активного тестирования системы на наличие уязвимостей, имитирующий действия злоумышленника.
📊 Цифры
🗓 Хронология
  1. 2014 Джошуа Сюй присоединяется к компании Snap.
  2. 2018 Джошуа начинает работать с технологиями генерации изображений (GAN) в Snap.
  3. Декабрь 2020 Основание компании HeyGen.
  4. 2024 Benchmark инвестирует $60 млн в HeyGen при оценке компании, демонстрирующей взрывной рост выручки.
⚖️ Другая сторона
Стартапы и бизнес HeyGen Joshua Xu Benchmark AI Avatars Generative Video