# Янник Кильхер о Jukebox: «Они научили нейросеть петь»

Источник: https://www.youtube.com/watch?v=1aO-uHXbzmQ
Канал: Yannic Kilcher
Опубликовано: 02.05.2020

---

## Jukebox: Революционный прорыв в генерации музыки от OpenAI 🎵
[[JUMP:0:18]]

Модель Jukebox, представленная исследователями OpenAI, знаменует собой значительный шаг вперед в области генеративного аудио. В отличие от многих предшествующих систем, этот проект позволяет не просто создавать абстрактные звуковые ландшафты, но и генерировать полноценные музыкальные композиции с вокалом и текстом, сохраняя при этом общую музыкальную целостность на протяжении всей песни. Авторами работы выступили Прафулла Дхаривал (Prafulla Dhariwal), Джун Кристин Пайн (June Christine Paine), Чжун-Ву Ким (Jung-Woo Kim), Алек Радфорд (Alec Radford) и Илья Суцкевер (Ilya Sutskever).

### Архитектурный подход: от сжатия к творчеству
[[JUMP:1:16]]

В основе системы лежит использование нескольких вариационных автокодировщиков с векторным квантованием (VQ-VAE). По мнению Янника Кильхера (Yannic Kilcher), выбор этой архитектуры глубоко логичен: она позволяет сжимать исходный аудиосигнал в компактное скрытое представление.

*   **Принцип VQ-VAE:** В отличие от классических вариационных автокодировщиков, VQ-VAE отображает входные данные в «кодбук» — список дискретных векторов. Это создает очень сжатое представление данных, где аудио кодируется последовательностью индексов.
*   **Иерархическая структура:** Поскольку аудио — непрерывный и сложный сигнал, разработчики разделили процесс на три масштаба:
    1.  **Высокочастотный (нижний):** отвечает за мельчайшие акустические детали.
    2.  **Средний:** промежуточный уровень детализации.
    3.  **Грубый (верхний):** отвечает за долгосрочные зависимости, структуру стиха или композиции.

Как отмечает Кильхер, обучение этих уровней раздельно позволяет модели эффективно справляться с долгосрочными зависимостями, которые часто теряются при попытке моделирования всего сигнала целиком.

### Обучение и генерация: как оживает музыка
[[JUMP:14:08]]

После обучения автокодировщиков система получает возможность работать в «сжатом» латентном пространстве. Вместо того чтобы пытаться сэмплировать сырую аудиоволну, модель учится предсказывать распределение кодов в скрытом пространстве с помощью масштабируемых трансформеров (Scalable Transformers).

Для создания финального продукта используются специальные апсемплеры — нейронные сети, которые соединяют разные масштабы и восстанавливают высококачественный звук из «грубых» предсказаний трансформера. Процесс генерации происходит «окнами»: модель создает фрагменты аудио, ориентируясь на предыдущие участки, что обеспечивает непрерывность композиции.

### Текстовое управление: вокал с осознанностью
[[JUMP:23:22]]

Одной из самых инновационных частей проекта является работа с текстом. В ранних экспериментах без текстовой обусловленности (lyrics conditioning) вокал звучал как неразборчивое бормотание, так как модель просто имитировала звуковые фонемы, не понимая смысла слов.

*   **Как это работает:** При использовании текстового контроля модель получает на вход не только музыку, но и текст песни. Во время обучения она учится сопоставлять музыкальные фрагменты с конкретными словами, буквально «глядя» в текст.
*   **Результаты:** Кильхер демонстрирует примеры генерации в стиле Фрэнка Синатры или Канье Уэста, где модель успешно «поет» заданные ей ранее неизвестные тексты.
*   **Внимание (Attention):** Анализ весов внимания показывает, что система действительно учится линейно сопоставлять аудио-фрагменты с текстовыми токенами, что подтверждает корректность обучения.

Несмотря на впечатляющие успехи, система не лишена ограничений. Например, при слишком длинных паузах или сложных переходах модель может «терять» связь с текстом и возвращаться к имитации звуков. Тем не менее, по мнению Кильхера, результаты выглядят крайне перспективно для развития генеративных технологий в музыке.