Янник Кильхер о Jukebox: «Они научили нейросеть петь»

Jukebox: Революционный прорыв в генерации музыки от OpenAI 🎵 0:18

Модель Jukebox, представленная исследователями OpenAI, знаменует собой значительный шаг вперед в области генеративного аудио. В отличие от многих предшествующих систем, этот проект позволяет не просто создавать абстрактные звуковые ландшафты, но и генерировать полноценные музыкальные композиции с вокалом и текстом, сохраняя при этом общую музыкальную целостность на протяжении всей песни. Авторами работы выступили Прафулла Дхаривал (Prafulla Dhariwal), Джун Кристин Пайн (June Christine Paine), Чжун-Ву Ким (Jung-Woo Kim), Алек Радфорд (Alec Radford) и Илья Суцкевер (Ilya Sutskever).

Архитектурный подход: от сжатия к творчеству 1:16

В основе системы лежит использование нескольких вариационных автокодировщиков с векторным квантованием (VQ-VAE). По мнению Янника Кильхера (Yannic Kilcher), выбор этой архитектуры глубоко логичен: она позволяет сжимать исходный аудиосигнал в компактное скрытое представление.

Принцип VQ-VAE: В отличие от классических вариационных автокодировщиков, VQ-VAE отображает входные данные в «кодбук» — список дискретных векторов. Это создает очень сжатое представление данных, где аудио кодируется последовательностью индексов.
Иерархическая структура: Поскольку аудио — непрерывный и сложный сигнал, разработчики разделили процесс на три масштаба:
1. Высокочастотный (нижний): отвечает за мельчайшие акустические детали.
2. Средний: промежуточный уровень детализации.
3. Грубый (верхний): отвечает за долгосрочные зависимости, структуру стиха или композиции.

Как отмечает Кильхер, обучение этих уровней раздельно позволяет модели эффективно справляться с долгосрочными зависимостями, которые часто теряются при попытке моделирования всего сигнала целиком.

Обучение и генерация: как оживает музыка 14:08

После обучения автокодировщиков система получает возможность работать в «сжатом» латентном пространстве. Вместо того чтобы пытаться сэмплировать сырую аудиоволну, модель учится предсказывать распределение кодов в скрытом пространстве с помощью масштабируемых трансформеров (Scalable Transformers).

Для создания финального продукта используются специальные апсемплеры — нейронные сети, которые соединяют разные масштабы и восстанавливают высококачественный звук из «грубых» предсказаний трансформера. Процесс генерации происходит «окнами»: модель создает фрагменты аудио, ориентируясь на предыдущие участки, что обеспечивает непрерывность композиции.

Текстовое управление: вокал с осознанностью 23:22

Одной из самых инновационных частей проекта является работа с текстом. В ранних экспериментах без текстовой обусловленности (lyrics conditioning) вокал звучал как неразборчивое бормотание, так как модель просто имитировала звуковые фонемы, не понимая смысла слов.

Как это работает: При использовании текстового контроля модель получает на вход не только музыку, но и текст песни. Во время обучения она учится сопоставлять музыкальные фрагменты с конкретными словами, буквально «глядя» в текст.
Результаты: Кильхер демонстрирует примеры генерации в стиле Фрэнка Синатры или Канье Уэста, где модель успешно «поет» заданные ей ранее неизвестные тексты.
Внимание (Attention): Анализ весов внимания показывает, что система действительно учится линейно сопоставлять аудио-фрагменты с текстовыми токенами, что подтверждает корректность обучения.

Несмотря на впечатляющие успехи, система не лишена ограничений. Например, при слишком длинных паузах или сложных переходах модель может «терять» связь с текстом и возвращаться к имитации звуков. Тем не менее, по мнению Кильхера, результаты выглядят крайне перспективно для развития генеративных технологий в музыке.