Янник Кильхер о Jukebox: «Они научили нейросеть петь»

Yannic Kilcher 26 тыс. 33 мин 2 мин 02.05.2020
Главное

Jukebox: Революционный прорыв в генерации музыки от OpenAI 🎵 0:18

Модель Jukebox, представленная исследователями OpenAI, знаменует собой значительный шаг вперед в области генеративного аудио. В отличие от многих предшествующих систем, этот проект позволяет не просто создавать абстрактные звуковые ландшафты, но и генерировать полноценные музыкальные композиции с вокалом и текстом, сохраняя при этом общую музыкальную целостность на протяжении всей песни. Авторами работы выступили Прафулла Дхаривал (Prafulla Dhariwal), Джун Кристин Пайн (June Christine Paine), Чжун-Ву Ким (Jung-Woo Kim), Алек Радфорд (Alec Radford) и Илья Суцкевер (Ilya Sutskever).

Архитектурный подход: от сжатия к творчеству 1:16

В основе системы лежит использование нескольких вариационных автокодировщиков с векторным квантованием (VQ-VAE). По мнению Янника Кильхера (Yannic Kilcher), выбор этой архитектуры глубоко логичен: она позволяет сжимать исходный аудиосигнал в компактное скрытое представление.

Как отмечает Кильхер, обучение этих уровней раздельно позволяет модели эффективно справляться с долгосрочными зависимостями, которые часто теряются при попытке моделирования всего сигнала целиком.

Обучение и генерация: как оживает музыка 14:08

После обучения автокодировщиков система получает возможность работать в «сжатом» латентном пространстве. Вместо того чтобы пытаться сэмплировать сырую аудиоволну, модель учится предсказывать распределение кодов в скрытом пространстве с помощью масштабируемых трансформеров (Scalable Transformers).

Для создания финального продукта используются специальные апсемплеры — нейронные сети, которые соединяют разные масштабы и восстанавливают высококачественный звук из «грубых» предсказаний трансформера. Процесс генерации происходит «окнами»: модель создает фрагменты аудио, ориентируясь на предыдущие участки, что обеспечивает непрерывность композиции.

Текстовое управление: вокал с осознанностью 23:22

Одной из самых инновационных частей проекта является работа с текстом. В ранних экспериментах без текстовой обусловленности (lyrics conditioning) вокал звучал как неразборчивое бормотание, так как модель просто имитировала звуковые фонемы, не понимая смысла слов.

Несмотря на впечатляющие успехи, система не лишена ограничений. Например, при слишком длинных паузах или сложных переходах модель может «терять» связь с текстом и возвращаться к имитации звуков. Тем не менее, по мнению Кильхера, результаты выглядят крайне перспективно для развития генеративных технологий в музыке.

💬 Цитаты

«Это неожиданно качественная генеративная модель для музыки, включая лирику, что, я считаю, довольно ново.»

Янник Кильхер 00:18

«Модель учится сопоставлять музыкальные фрагменты с текстом, и это дает намного лучшие результаты.»

Янник Кильхер 27:48
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VQ-VAE
Вариационный автокодировщик с векторным квантованием, сжимающий данные в набор дискретных кодов.
Кодбук
Список векторов, используемый в VQ-VAE для дискретизации скрытого представления.
Латентное пространство
Сжатое представление данных, в котором нейросеть может проводить математические манипуляции.
Апсемплинг
Процесс восстановления высокочастотного сигнала из сжатого или низкочастотного представления.
Трансформер
Архитектура нейросетей, основанная на механизмах внимания, ставшая стандартом в генеративных моделях.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Jukebox OpenAI VQ-VAE Yannic Kilcher