Как создать вирусный клип с C3PO-рэпером: разбор 28 ИИ-инструментов от Даниэля Экклера

Wes Roth 36,3 тыс. 13 мин 4 мин 13.04.2024
Главное

В современной индустрии контента наступает момент, когда грань между человеческим творчеством и генеративным искусством становится практически неразличимой. Ведущий YouTube-канала Wes Roth представил детальный разбор вирусного музыкального клипа «Gold Gang», созданного полностью с помощью искусственного интеллекта. Видео, в котором культовый дроид C3PO предстает в образе гангстер-рэпера, не только набрало миллионы просмотров, но и стало наглядным пособием по тому, как выглядит профессиональный продакшн в эпоху ИИ.

🤖 Феномен Gold Gang: больше, чем просто один промпт 2:07

Автором нашумевшего ролика является Даниэль Экклер (Daniel Eckler) из проекта Eckler by Design . На момент записи обзора видео в социальной сети X (бывший Twitter) набрало более 2,3 миллиона просмотров . По мнению Уэса Рота, успех клипа обусловлен не просто удачной идеей, а колоссальной технической работой, которая стоит за кадром.

Вопреки расхожему мнению о том, что ИИ-контент создается одной командой в ChatGPT, Экклер использовал связку из 28 различных инструментов . Ведущий подчеркивает, что современные нейросети пока не способны выдать готовый продукт такого качества «в один клик», и процесс создания Gold Gang напоминал полноценный кинопроизводственный цикл с раскадровками, кастингом голосов и сложным монтажом .

Ключевые характеристики проекта:

🎼 Звук и лирика: битва за «аддиктивность» 4:41

Процесс создания трека начался с поиска вокальной модели. Для этого использовались:

Особое внимание Уэс Рот уделил выбору музыкального движка. Он сравнил две ведущие платформы — Suno AI и Udio. По мнению ведущего, хотя Udio выдает технически более «правильное» звучание, Suno AI обладает уникальной способностью создавать «аддиктивные» мелодии, которые буквально застревают в голове .

Для достижения аутентичного звучания автор нанял реальных рэперов с британским акцентом на платформе Fiverr, чтобы записать референсные вокальные партии, на которых затем обучались ИИ-модели в сервисе Resemble AI .

🖼️ Визуальный ряд и проблема консистентности 6:25

Визуальная часть клипа базировалась на Midjourney. Экклер применил метод «брутфорса»: генерировалось более 1000 изображений, из которых выбирались единицы лучших . Уэс Рот отмечает, что ведущей проблемой ИИ-генерации остается «консистентность персонажа» — сохранение внешности героя от кадра к кадру .

Чтобы скрыть артефакты и странности ИИ-видео, автор использовал профессиональные приемы:

Для финальной доработки кадров применялся Photoshop — ведущий признает, что иногда проще потратить 5 минут на ручную ретушь, чем часы на попытки перегенерировать идеальный промпт в Midjourney .

🎬 Видеопроизводство и липсинк 8:27

Для анимации статичных изображений основным инструментом стал Runway ML. На текущий момент Уэс Рот считает его платформой №1 среди доступных тексто-графических нейросетей, хотя и отмечает, что автору приходилось генерировать каждый кадр по 5 и более раз для достижения нужного результата .

Технические этапы видео-обработки:

  1. Синхронизация губ (Lip-sync): Использовались модели Sync Labs. Уэс отмечает, что выбор персонажа без подвижного человеческого лица (дроида) был стратегически верным решением, упростившим задачу синхронизации .
  2. Монтаж: Adobe Premiere Pro использовался для создания плотного, ритмичного клипа .
  3. Апскейлинг: Для повышения разрешения до финального качества применялись Topaz Labs и Magnific .

В процессе работы над проектом автор столкнулся с неожиданным стресс-фактором: анонсом модели Sora от OpenAI. Экклер опасался, что релиз Sora сделает его титанический труд неактуальным еще до публикации клипа . По мнению ведущего, когда Sora станет общедоступной, процесс создания таких видео значительно упростится, особенно в вопросах консистентности персонажей .

🚀 Будущее креативных индустрий 12:49

Завершая разбор, Уэс Рот рассуждает о том, как подобные технологии меняют порог входа в творчество. По его мнению, ИИ дает шанс людям, которые обладают креативным видением, но не имеют технических навыков для самостоятельного производства музыки или видео .

Ведущий задается вопросами:

Уэс подчеркивает, что еще год назад ИИ-видео выглядели «ужасно», а сегодня мы видим работы уровня Gold Gang. По его прогнозу, через 5 лет индустрия изменится до неузнаваемости . В качестве забавной детали он упоминает, что автор клипа добавил на C3PO значок Федерации из «Звездного пути» (Star Trek), чтобы «порадовать» (или позлить) фанатов «Звездных войн» .

💬 Цитаты

«Suno AI создает мелодии и слова, которые могут быть очень аддиктивными... песни Suno застревают у меня в голове.»

«Мы вступаем в неизведанные воды. Здесь замешаны современные знаменитости, LucasArts, Disney.»

«ИИ дает креативность тем, у кого нет навыков для самостоятельного производства.»

👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Липсинк (Lip-sync)
Технология синхронизации движений губ персонажа со звуковой дорожкой.
Консистентность персонажа
Способность ИИ сохранять неизменными черты лица и детали одежды героя в разных кадрах и сценах.
Dolly Zoom
Киноприем, при котором камера отдаляется от объекта при одновременном увеличении фокусного расстояния (или наоборот).
Апскейлинг
Процесс увеличения разрешения изображения или видео с помощью алгоритмов для улучшения четкости.
📊 Цифры
🗓 Хронология
  1. 2023 Период, когда ИИ-видео, по словам Рота, выглядели еще очень плохо.
  2. Февраль 2024 Анонс модели Sora от OpenAI, вызвавший панику у создателей контента.
  3. Май 2024 Публикация разбора клипа Gold Gang на канале Уэса Рота.
⚖️ Другая сторона
Искусственный интеллект Daniel Eckler Midjourney Runway ML Suno AI OpenAI Sora