Эндрю Мейсон (Descript) о будущем ИИ-монтажа и видео

The Cognitive Revolution 668 46 мин 3 мин 03.08.2024
Главное

Видеоредактирование в эпоху ИИ: интервью с CEO Descript Эндрю Мейсоном 1:17

В недавнем выпуске подкаста The Cognitive Revolution ведущий Нейтан Ленц побеседовал с Эндрю Мейсоном, генеральным директором компании Descript. Descript — это платформа для редактирования видео и аудио, которая стремится сделать процесс монтажа таким же простым и интуитивным, как редактирование обычного текстового документа. В ходе беседы Мейсон рассказал о видении будущего контента, влиянии генеративного ИИ на рабочие процессы и стратегии развития своего продукта.

🎨 Революция в инструментах монтажа 5:28

По мнению Мейсона, создание видео и аудио контента должно стать таким же фундаментальным навыком, как создание текста. Изначально Descript создавался на базе технологий ИИ-транскрибации, чтобы избавить пользователей от медленных и сложных временных шкал (таймлайнов), типичных для профессионального монтажного ПО.

Команда Descript представила набор функций под названием Underlord, объединяющий возможности генеративного ИИ для автоматизации рутинных задач. Среди наиболее популярных и значимых инструментов Мейсон выделяет:

Мейсон подчеркивает, что такие функции позволяют авторам сосредоточиться на идеях, не отвлекаясь на технические сложности процесса.

🤝 Стратегия интеграций и партнерство с OpenAI 14:40

В отличие от многих компаний, стремящихся строить абсолютно всё внутри собственной экосистемы, Descript придерживается открытого подхода. Мейсон утверждает, что у компании «нет никакой религии» относительно обязательного создания собственных моделей. Если на рынке появляется более качественное решение — например, для очистки аудио или синтеза речи — Descript стремится интегрировать его, чтобы предложить пользователям лучший опыт.

Что касается партнерства с OpenAI, Мейсон отмечает, что это началось как стандартное привлечение инвестиций, которое со временем переросло в возможность для команды Descript консультироваться с передовыми исследователями в области ИИ. Хотя конкретные планы по созданию кастомных моделей на базе технологий OpenAI остались без прямого подтверждения, Мейсон признает потенциал дообучения моделей на специализированных данных, как это делают в юридических стартапах вроде Harvey.

🔮 Будущее генеративного видео и аватаров 27:28

Говоря о будущем, Мейсон видит большой потенциал в генеративном видео, которое может решить проблему «визуального украшательства». По его словам, многие современные ролики (включая подкасты) визуально статичны, и генеративные инструменты могли бы динамически добавлять графику, анимацию или визуальные пояснения, превращая текст в полноценный видеоряд.

В отношении ИИ-аватаров (вроде HeyGen) Мейсон высказывается осторожно:

🛠 Управление ИИ-разработкой 43:52

Разработка продуктов с использованием ИИ сильно отличается от традиционного софтверного инжиниринга. Мейсон отмечает высокую степень неопределенности: требования и возможности моделей меняются по мере развития исследований.

Главные уроки, которые извлек Мейсон при работе с инженерами ИИ:

  1. Принятие риска: В исследовательских проектах некоторые ставки не сыграют, и нужно быть готовым начать с нуля.
  2. Неопределенность ограничений: Инженерные ограничения (например, время обучения модели) могут меняться прямо в процессе разработки, что заставляет пересматривать концепцию продукта.
  3. Стратегия «рисковать в начале»: Необходимо проводить самые сложные технические эксперименты на раннем этапе, чтобы подтвердить жизнеспособность идеи.
💬 Цитаты

«Создание аудио и видео контента все чаще ощущается таким же фундаментальным навыком, как создание текста.»

Эндрю Мейсон 05:28

«Студийный звук — это не просто шумоподавление, он буквально обучен превращать запись с компьютерного микрофона в студийную.»

Эндрю Мейсон 07:44
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Underlord
Набор функций Descript на основе ИИ для автоматизации редактирования контента.
Транскрибация
Процесс преобразования речи в текст.
Uncanny valley (Неприятная долина)
Гипотеза, согласно которой робот или анимация, выглядящие очень похоже на человека, но с небольшими изъянами, вызывают отвращение.
Fine-tuning (Дообучение)
Процесс адаптации готовой модели ИИ под специфические задачи на дополнительном наборе данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Descript Andrew Mason Underlord генеративный ИИ видеомонтаж