Как Янник Кильхер создал музыкальный клип с помощью CLIP и BigGAN: подробный туториал

Yannic Kilcher 150 тыс. 13 мин 3 мин 18.05.2021
Главное

Известный AI-исследователь Янник Кильхер (Yannic Kilcher) представил необычный творческий проект: музыкальный клип, полностью созданный нейросетями на основе текста, сгенерированного из меток классов датасета ImageNet. В этом проекте автор объединил возможности моделей CLIP от OpenAI и BigGAN, чтобы продемонстрировать, как современные алгоритмы машинного обучения могут визуализировать абстрактные понятия и синхронизировать их с живым исполнением.

🎵 Идея и создание текста песни 0:01

Основой для проекта послужила песня, текст которой Янник Кильхер составил из названий категорий ImageNet — гигантского набора данных, используемого для обучения систем компьютерного зрения . По словам автора, такой выбор был обусловлен не только желанием поэкспериментировать, но и практическими соображениями:

🖼️ Визуализация через BigGAN и латентное пространство 3:51

Для генерации видеоряда использовалась модель BigGAN — генеративно-состязательная сеть, обученная создавать высококачественные изображения. Кильхер объясняет техническую суть процесса:

  1. Латентное пространство: Нейросеть генерирует изображение на основе точки (вектора), выбранной в так называемом латентном пространстве .
  2. Интерполяция (траверс): Если выбрать две точки в этом пространстве, можно плавно перемещаться от одной к другой .
  3. Создание видео: Последовательная склейка кадров при переходе между точками создает эффект морфинга — плавного превращения одного объекта в другой .

Для каждой строчки песни была подобрана соответствующая точка в латентном пространстве, а затем настроен переход между ними в такт музыке .

🧠 Связка CLIP и BigGAN: дифференцируемый пайплайн 4:58

Ключевой этап работы заключался в том, чтобы заставить нейросеть создавать изображения, точно соответствующие тексту песни. Для этого была использована модель CLIP от OpenAI .

По мнению Кильхера, результаты не всегда реалистичны, но зачастую выглядят «очень круто» . В качестве примера он приводит визуализацию фразы «позвоночник как горизонтальная перекладина» и «лицо как поношенный коврик» .

🎸 Музыкальное оборудование и процесс записи 7:32

Помимо технической части с ИИ, Янник Кильхер сам исполнил песню, используя технику лайв-лупинга (создание многослойных композиций в реальном времени). В его арсенале:

Кильхер признается, что страдает от сильного страха перед камерой («stage fright»), из-за чего ему потребовалось около 20 дублей, чтобы записать финальный вариант .

🤝 Сообщество и открытый код 12:47

В завершение Янник Кильхер подчеркнул, что его проект — это результат работы многих исследователей. Он отметил вклад разработчиков CLIP и BigGAN, а также тех, кто адаптировал эти модели для творческих целей . Автор опубликовал исходный код проекта, чтобы любой желающий мог поэкспериментировать с генерацией собственных музыкальных видео .

💬 Цитаты

«Текст песни абсолютно ничего не значит. Я просто хотел избежать проблем с авторскими правами на YouTube.»

Янник Кильхер 0:28

«Мы находим точку в латентном пространстве GAN, которая всё больше и больше радует модель CLIP.»

Янник Кильхер 6:03

«Как только включается камера, мой мозг просто отключается.»

Янник Кильхер 8:54
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Латентное пространство
Сжатое математическое представление данных, где близкие по смыслу объекты находятся рядом.
Траверс (интерполяция)
Плавный переход между двумя точками в латентном пространстве для создания анимации.
Дифференцируемый пайплайн
Цепочка алгоритмов, позволяющая вычислять производные и проводить оптимизацию методом градиентного спуска.
Лупинг
Техника записи звукового фрагмента и его циклического воспроизведения в реальном времени.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Yannic Kilcher OpenAI CLIP BigGAN ImageNet