Музыка, ИИ и творчество: как проект Magenta меняет правила игры 🎵 0:26
В свежем выпуске подкаста The TWIML AI Podcast ведущий встретился с Джесси Энгелем, исследователем из Google, чтобы обсудить амбициозный проект Magenta. Главная идея этого проекта заключается в исследовании того, как искусственный интеллект может стать инструментом для расширения человеческого творческого потенциала, а не его заменой. Энгель, имеющий необычный бэкграунд в физике, нанотехнологиях и нейронауках, подчеркивает, что развитие музыкальных технологий всегда шло рука об руку с эволюцией нашего способа самовыражения,.
🛠 Философия Magenta и «дифференцируемая» музыка 2:36
Работа команды Magenta сфокусирована на создании вспомогательных технологий. Вместо того чтобы просто генерировать бесконечный поток контента, ученые ищут способы сделать процесс создания музыки более доступным и интерактивным. По мнению Энгеля, важно не просто обучить модель выдавать результат, а дать пользователю контроль над процессом.
Особое внимание в интервью уделено проекту DDSP (Differentiable Digital Signal Processing).
- Суть технологии: Традиционные глубокие нейронные сети (вроде WaveNet) пытаются предсказать каждый сэмпл звуковой волны, что требует огромных вычислительных затрат.
- Подход DDSP: Команда сочетает мощь нейросетей с понятными компонентами цифровой обработки сигналов (DSP), такими как осцилляторы и фильтры.
- Преимущества: Модели получаются крайне компактными (менее 1 МБ), работают в реальном времени в веб-браузере и позволяют пользователю манипулировать понятными параметрами: высотой тона и громкостью.
🎻 Творчество как процесс, а не как артефакт 9:21
Джесси Энгель предлагает рассматривать музыку через призму «глагола», а не «существительного».
- Tone Transfer: Один из популярных инструментов Magenta, доступный на
g.co/tone_transfer. Он позволяет пользователю напеть мелодию или сыграть ее на гитаре, а система перенесет этот «рисунок» на другой инструмент — например, скрипку или саксофон, сохраняя исходную динамику. - Интерпретируемость: Поскольку DDSP использует классические принципы DSP, модель остается «прозрачной»: исследователь видит, какие именно частоты и гармоники генерирует нейросеть, в отличие от «черных ящиков» стандартных нейронных сетей.
📊 Данные, обучение и будущее ИИ в музыке 22:11
Работа с музыкой сталкивается с нехваткой качественных размеченных данных, в отличие от сферы обработки текста.
- Maestro Dataset: Проект Magenta выпустил этот набор данных, собранный с помощью «дисклавиров» (роялей, записывающих нажатия клавиш во время конкурсов), чтобы обучить модели точно транскрибировать исполнение.
- Масштабирование: Будущие цели включают использование огромных трансформерных моделей для поиска скрытых смыслов в аудио и попытку превратить проблему аудиоанализа в задачу, аналогичную обработке языка (NLP),.
Гость отмечает, что, хотя существуют коммерческие запросы на «функциональную» музыку (фоновый шум), его лично вдохновляет возможность вернуть людям ощущение творческого процесса. Энгель мечтает, чтобы технологии помогли стереть грань между «обученным музыкантом» и обычным человеком, позволяя людям общаться друг с другом на «телепатическом» уровне через совместное музыкальное творчество,.