Как журналисты и продюсеры создавали песню с помощью ИИ

The Vergecast 1,6 тыс. 57 мин 7 мин 18.09.2023
Главное

В эпоху стремительного развития технологий музыкальная индустрия сталкивается с глубинным вызовом: способны ли алгоритмы заменить человеческое творчество? В рамках специального выпуска подкаста The Vergecast журналист Дэвид Пирс вместе с профессиональными музыкантами Чарли Хардингом и Иэном Киммелом проверили в деле современные нейросети, попытавшись создать полноценный трек с нуля. Этот эксперимент наглядно продемонстрировал текущие технологические ограничения ИИ и обнажил серьезные угрозы, которые автоматизация несет для системы авторского права.

📱 Рингтоны Nokia и ChatGPT: как ИИ автоматизирует рутину 0:01

Журналист Дэвид Пирс начинает масштабное исследование с теста популярного сервиса Voiceify.ai, предназначенного для клонирования поющего голоса. Загрузив часовую запись собственного вокала, ведущий наложил полученную ИИ-модель на известные треки The Beatles и Элвиса Пресли. Несмотря на то, что результат показался Пирсу забавным и отчасти узнаваемым, алгоритм полностью терял структуру песни на сложных вокальных переходах.

В повседневной практике профессиональных музыкантов ИИ пока занимает весьма скромное место. Музыкальный обозреватель Чарли Хардинг использует ChatGPT исключительно как продвинутый словарь рифм. Продюсер Иэн Киммел, работавший с такими гигантами, как BTS и Мэри Джей Блайдж, признается, что чаще всего генерирует в чат-боте эффективные бизнес-письма для общения с клиентами, чтобы иметь возможность оплачивать жилье в Нью-Йорке. По мнению Иэна Киммела, искусственный интеллект в его нынешнем состоянии не способен конкурировать со специалистами, умеющими играть на реальных инструментах.

Тем не менее автоматизация постепенно проникает в технические процессы звукозаписи. Чарли Хардинг подчеркивает, что подготовка сессии к микшированию — удаление тишины, выравнивание вокала и разметка дорожек — отнимает у ассистентов звукорежиссера десятки часов рутинной работы. Современные нейросети начинают решать эту проблему: новые инструменты способны автоматически прослушивать загруженные аудиостеми и корректно переименовывать их, экономя колоссальное количество времени при работе со сложными проектами.

🧪 Творческий эксперимент: анатомия создания песни из цифрового мусора 12:53

Музыканты решили провести эксперимент и написать песню, используя исключительно доступные ИИ-инструменты. Этот опыт оказался изнурительным: по словам Иэна Киммела, процесс сильно замедлял работу, создавая ощущение «сломанной ноги». Простейшие действия, которые в обычной студии занимают полминуты — например, синтез базовой синусоидальной волны для линии баса, — требовали от десяти минут копания в интерфейсах нейросетей.

Первым этапом стало написание текста песни с помощью ChatGPT. Базовые промты Иэна Киммела о синдроме самозванца в эпоху ИИ привели к генерации банальных, шаблонных стихов, напоминавших худшие бродвейские постановки, с очевидными и скучными рифмами вроде bright/lights или remain/chains. Чтобы преодолеть творческий тупик, Чарли Хардинг задействовал известный метод взлома писательского блока, созданный лидером рок-группы Wilco Джеффом Твиди.

Суть данного метода сводится к трем шагам:

Благодаря этой технике ИИ выдал более глубокие и метафоричные образы: «вторгающиеся небоскребы» (intruding skyscrapers), «крадущееся метро» (sneaking subways) и «грабящие газетные киоски». Дальнейшая детализация промтов позволила внедрить в текст географические привязки к Флэтайрон-билдинг и террасе Бетесда в Центральном парке. Примечательно, что самым полезным ИИ-помощником в этот момент Чарли иронично назвал стандартную функцию Apple Live Text, которая позволила мгновенно скопировать текст с фотографии экрана компьютера прямо в приложение «Заметки».

🎹 Сборка аудиопалитры: от платформы Suno до «фармацевтической» рекламы 20:52

Для генерации музыкальной основы авторы обратились к веб-сервису Suno, который они охарактеризовали как «аналог Midjourney для звука». На основе текстового промта алгоритм выдал синтезированный трек со встроенным вокалом, качество которого музыканты сравнили с полифоническими рингтонами для старых телефонов Nokia. Другая предложенная ИИ альтернатива и вовсе отдавала низкосортной кантри-музыкой.

С помощью специализированного сервиса AudioShake.ai полученную Lo-Fi дорожку удалось разделить на стемы — изолированные партии вокала и синтезатора. Иэн Киммел пояснил, что в коммерческой индустрии AudioShake легально применяется крупными артистами для получения чистых исходников при создании ремиксов на старые архивные записи. В поисках дополнительных элементов команда протестировала платформу Soundful, однако сгенерированная ею мелодия, по шутливому замечанию Дэвида Пирса, больше походила на безликий фоновый трек для рекламы лекарств с длинным списком побочных эффектов.

Финальные штрихи аудиопалитры собирались по крупицам:

🎛️ Финальный микс и суровый приговор критиков 26:13

Сведение композиции потребовало долгой ручной доработки: Иэн Киммел потратил около получаса на то, чтобы очистить грязные Lo-Fi звуки Suno и превратить короткий синтезаторный сэмпл в плотный, качающий бас. Поскольку искусственный интеллект оказался неспособен придумать запоминающуюся вокальную мелодию, Иэн самостоятельно напел партию в микрофон с максимальным эффектом автотюна. Полученный вокал прогнали через платформу Voice Swap.ai, которая позволяет легально, за несколько сотен долларов, покупать лицензии на ИИ-модели голосов профессиональных сессионных певцов. На финише трек обработали виртуальными ассистентами iZotope Neutron и Ozone для автоматического мастеринга.

Результатом эксперимента стала меланхоличная поп-композиция под названием «I Don’t Belong (Intruding Skyscrapers)». Оценить готовое произведение в студию пришел главный редактор The Verge Нилай Пател. Прослушав трек, он вынес бескомпромиссный вердикт: малый барабан звучит слишком рано, а ударные совершенно «не попадают в карман».

Продюсер Иэн Киммел полностью согласился с критикой, дав текущему уровню технологий емкую характеристику. По мнению Иэна Киммела, весь современный генеративный ИИ — это «пушка, стреляющая посредственным контентом уровня C+». Продюсер подчеркнул, что в реальной работе ему гораздо проще выкинуть такой материал в корзину и написать завтра новую хорошую песню с нуля, чем тратить бесценное время на попытки спасти кривой алгоритмический набросок.

🥁 Исторические аналогии: стигма автотюна и феномен Roland TR-808 37:47

Участники дискуссии сошлись во мнении, что нынешняя общественная паника вокруг ИИ во многом повторяет исторические этапы внедрения любых знаковых музыкальных технологий. Чарли Хардинг провел параллель с появлением драм-машин в 1980-х годах. Легендарная модель Roland TR-808 изначально задумывалась как простое устройство для создания демо-записей и потерпела сокрушительный коммерческий провал. Оказавшись в ломбардах за бесценок, TR-808 попала в руки первых хип-хоп продюсеров, которые переосмыслили ее специфическое «игрушечное» звучание и превратили его в фундамент современной поп-культуры. По мнению Чарли Хардинга, главные инновации с ИИ поразят мир тогда, когда подростки в своих подвалах научатся умышленно использовать эти инструменты неправильно.

Аналогичная ситуация в свое время сложилась и с технологией коррекции шага вокала. Дэвид Пирс напомнил, что после выхода суперхита Шер «Believe» продюсеры трека долгое время публично врали в интервью и придумывали технические сказки, скрывая использование автотюна. Они шли на это из-за жесточайшей общественной стигмы: использование программного обеспечения тогда приравнивалось к отсутствию таланта.

Сегодня ситуация изменилась:

⚖️ Корпоративный Content ID и ловушки авторского права 44:30

Наиболее опасный аспект массового внедрения ИИ лежит не в плоскости эстетики, а в сфере юридического и финансового контроля. Нилай Пател выразил серьезное опасение, что развитие нейросетей приведет к суперавтоматизации правоприменения, из-за чего независимое творчество окажется загнано в жесткие корпоративные рамки. Уже сейчас внутренние правила музыкального бизнеса о сэмплировании и интерполяциях доведены до абсурда и практически не пересекаются с официальным законодательством.

Нилай Пател привел несколько показательных примеров жесткого давления правообладателей:

По мнению Нилая Патела, интеграция ИИ в подобные системы контроля приведет к тому, что богатые корпорации станут еще богаче, автоматически отслеживая малейшие совпадения в структуре треков и изымая деньги у молодых авторов. Это полностью уничтожает стимул создавать что-то новое. Чарли Хардинг подтвердил эти опасения, рассказав, что из-за агрессивных алгоритмов YouTube Content ID он принципиально отказывается делать видеоверсии подкаста Switched on Pop: робот мгновенно демонетизирует любой аналитический контент, полностью игнорируя законное право на добросовестное использование (fair use). В финале дискуссии эксперты сошлись во мнении, что бесконечная генерация безликой фоновой музыки из «черного ящика» ИИ не имеет долгосрочной ценности, поскольку слушатели всегда будут искать живой человеческий контекст и искреннюю связь с личностью артиста.

💬 Цитаты

«Моё ощущение от ИИ в целом — это пушка, стреляющая посредственным контентом уровня C+.»

Иэн Киммел 36:56

«Система Content ID на YouTube — это собственное правительство со своим судом.»

Чарли Хардинг 50:21
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Стемы (Stems)
Раздельные аудиодорожки различных элементов песни (вокал, бас, ударные), из которых собирается финальный микс.
Миди (MIDI)
Цифровой интерфейс и формат данных, передающий информацию о сыгранных нотах, темпе и громкости между инструментами.
Мастеринг
Финальная стадия технической обработки готового музыкального трека для его сбалансированного звучания на всех аудиосистемах.
Content ID
Автоматическая цифровая система YouTube, распознающая защищенный авторским правом аудио- и видеоконтент для его монетизации или блокировки.
📊 Цифры
🗓 Хронология
  1. Сентябрь 2023 года Запись экспериментального выпуска подкаста The Vergecast об ИИ в музыке.
  2. 1980-е годы Выпуск драм-машины Roland TR-808, ставшей коммерческим провалом, но позже заложившей основу хип-хопа.
  3. 1998 год Выход песни Шер «Believe», положившей начало использованию автотюна как явного эффекта.
⚖️ Другая сторона
Искусственный интеллект The Vergecast Suno iZotope Ozone Иэн Киммел Чарли Хардинг