Паша из Try CGI показал пошаговый процесс видеогенерации

Try CGI 1,2 млн 19 мин 5 мин
Главное

Нейросети для генерации видео вышли на новый уровень благодаря возможностям модели Google Veo 3, способной создавать не только реалистичную картинку, но и синхронную озвучку персонажей. Автор YouTube-канала Try CGI Паша в своем подробном руководстве разобрал полный пайплайн создания трендового вирусного ролика от идеи до финального монтажа. Данный гайд позволяет совершенно бесплатно освоить технологию, за которую, как утверждает ведущий, различные «инфоцыгане» пытаются брать деньги на специализированных курсах и в закрытых клубах.

🛠️ Подготовка и обход ограничений 0:26

Для пользователей из России и Беларуси процесс создания видео начинается со скачивания VPN, так как платформы ChatGPT, Midjourney и Google Veo 3 официально заблокированы в этих регионах. Автор канала Try CGI рекомендует использовать бесплатный Bright VPN, отмечая, что его небольшой скорости вполне достаточно для выполнения всех рабочих задач.

Для работы по указанному методу потребуется использовать всего три основных веб-ресурса:

🎨 Шаг 1: Разработка концепта и генерация стиля в Midjourney 1:05

В качестве примера Паша берет идею создания вирусного видеоролика с двумя бабушками, которые едут друг за другом на самокатах и выкрикивают современные зумерские фразы. Чтобы задать нейросети правильный визуальный тон, автор делает скриншот референсного видео с советским бэкграундом и загружает его в бесплатную версию ChatGPT. Чат-бот формирует базовое текстовое описание для Midjourney с требованием убрать лишние элементы (носорога из примера) и сохранить общую стилистику.

По мнению автора канала, подбор стиля через генераторы изображений критически важен перед запуском полноценного видео:

«Ваша задача на данном этапе — это просто определиться с тем, какой у вас именно будет ракурс, какая задумка, и со стилем определиться с помощью Midjourney, потому что здесь это условно бесплатно и быстро можно найти тот самый стиль. Это нужно для того, чтобы не тратить платные генерации в Google Veo 3, потому что там это будет значительно дороже».

В процессе доработки промпта Паша просит ChatGPT сделать лица бабушек менее улыбчивыми («типичными бабушками»), изменить фронтальный ракурс на боковой и зафиксировать на фоне советские дома. Полученный в Midjourney результат служит отправной точкой для перехода к генерации видео.

🎬 Шаг 2: Перенос промпта в Google Veo 3 и настройка генерации 3:41

На следующем этапе готовый текстовый шаблон адаптируется под стандарты видеосети от Google. Для полноценной работы с Google Veo 3 потребуется платная подписка стоимостью 125 долларов в месяц, которая предоставляет около 100 генераций (или пакет тарифных кредитов). При этом привязка зарубежной банковской карты к аккаунту Flow позволяет получить около 8 тестовых генераций бесплатно. Паша демонстрирует личный рабочий интерфейс, отмечая, что на создание предыдущего вирусного ролика с носорогом Сережей у него ушла примерно половина лимита — около 65 долларов.

В настройках проекта во вкладке Text-to-Video доступны три версии модели:

При запуске генерации важно учитывать финансовые нюансы: использование моделей Veo 1 и Veo 2 списывает всего 10 кредитов, в то время как запуск флагманской Veo 3 обойдется в 100 кредитов. Для предварительных тестов автор советует выбирать быструю модель Fast, чтобы сэкономить баланс.

🗣️ Особенности работы со звуком и языковыми багами 5:48

При первых тестах Паша сталкивается с проблемой локализации: если промпт написан полностью на английском языке, то и сгенерированный голос персонажей будет англоязычным. Для получения корректной русской озвучки необходимо прямо в теле промпта прописать реплики героев на русском языке и добавить системное указание для нейросети, что все диалоги должны быть на русском.

В процессе генерации роликов неизбежно возникают технические баги, которые автору приходится обходить вручную:

Паша подчеркивает, что оптимального автоматического решения против появления субтитров или дефектов нет. Единственные рабочие методы — кадрирование (обрезание) видео, наложение графической плашки или многократная перегенерация кадров в надежде на чистый результат.

🔄 Пошаговый пайплайн и борьба с артефактами нейросетей 13:01

Для успешного создания контента автор рекомендует выстроить четкую последовательность действий:

  1. Найти подходящий видео-референс и отправить его в ChatGPT для описания.
  2. Сгенерировать и протестировать картинку в Midjourney для фиксации стиля.
  3. Вернуться в ChatGPT и переписать промпт специально под требования Google Veo 3.
  4. Запустить генерацию во Flow от Google, точечно корректируя детали через чат-бот при неудачных дублях.

По мнению Паши, писать промпты самостоятельно абсолютно бесполезно, так как нейросеть ChatGPT справляется с этой задачей значительно точнее человека. Главная сложность процесса заключается в придумывании оригинальной, неизбитой и интересной идеи.

Автор также делится важным наблюдением о характере работы алгоритмов Google: Veo 3 категорически отказывается генерировать откровенный «кринж-контент» вроде странных абстрактных танцев, выдавая в таких случаях плохой результат. Зато эта нейросеть, как считает ведущий, идеально подходит для создания фотореалистичных людей со встроенным и синхронизированным голосом.

✂️ Финальный монтаж и апскейл в Premiere Pro 15:38

После того как три ключевые сцены скомпонованы и одобрены, автор скачивает их в исходном размере (Original Size) и отправляет на апскейл (Upscaling) для повышения разрешения. Здесь кроется важный технический нюанс платформы Flow: при проведении апскейла из итогового файла почему-то полностью пропадает аудиодорожка. Поэтому необходимо отдельно скачивать файл в оригинальном разрешении ради звука, а затем совмещать его с улучшенным видеорядом на таймлайне.

Для сборки видеоролика подойдет любой современный видеоредактор — CapCut, After Effects, Premiere Pro, DaVinci Resolve или Final Cut. В рамках туториала Паша монтирует 19-секундный ролик в Premiere Pro. Финальным штрихом является перенос проекта в After Effects для кадрирования под вертикальный формат 9:16, используемый в TikTok, Instagram Reels и YouTube Shorts. Весь процесс создания вирусного ролика занимает не более 10–15 минут чистого времени, исключая периоды ожидания просчета нейросетей.

💬 Цитаты

«Ваша задача на данном этапе — определиться с ракурсом, задумкой и стилем с помощью Midjourney, потому что здесь это условно бесплатно и быстро.»

«Самая сложная здесь работа заключается в том, чтобы придумать идею, чтобы она была прикольная, необычная, не всратая, а, и интересная.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Промпт
Текстовый запрос или инструкция для нейросети, определяющая результат генерации.
Апскейл
Процесс масштабирования изображения или видео для повышения его разрешения и четкости.
Артефакт
Заметный дефект или искажение на сгенерированном нейросетью изображении или видео.
Пайплайн
Последовательность этапов и инструментов, используемая для решения конкретной технологической задачи.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Google Veo 3 ChatGPT Midjourney Try CGI генерация видео