Как журналисты и продюсеры создавали песню с помощью ИИ

В эпоху стремительного развития технологий музыкальная индустрия сталкивается с глубинным вызовом: способны ли алгоритмы заменить человеческое творчество? В рамках специального выпуска подкаста The Vergecast журналист Дэвид Пирс вместе с профессиональными музыкантами Чарли Хардингом и Иэном Киммелом проверили в деле современные нейросети, попытавшись создать полноценный трек с нуля. Этот эксперимент наглядно продемонстрировал текущие технологические ограничения ИИ и обнажил серьезные угрозы, которые автоматизация несет для системы авторского права.

📱 Рингтоны Nokia и ChatGPT: как ИИ автоматизирует рутину 0:01

Журналист Дэвид Пирс начинает масштабное исследование с теста популярного сервиса Voiceify.ai, предназначенного для клонирования поющего голоса. Загрузив часовую запись собственного вокала, ведущий наложил полученную ИИ-модель на известные треки The Beatles и Элвиса Пресли. Несмотря на то, что результат показался Пирсу забавным и отчасти узнаваемым, алгоритм полностью терял структуру песни на сложных вокальных переходах.

В повседневной практике профессиональных музыкантов ИИ пока занимает весьма скромное место. Музыкальный обозреватель Чарли Хардинг использует ChatGPT исключительно как продвинутый словарь рифм. Продюсер Иэн Киммел, работавший с такими гигантами, как BTS и Мэри Джей Блайдж, признается, что чаще всего генерирует в чат-боте эффективные бизнес-письма для общения с клиентами, чтобы иметь возможность оплачивать жилье в Нью-Йорке. По мнению Иэна Киммела, искусственный интеллект в его нынешнем состоянии не способен конкурировать со специалистами, умеющими играть на реальных инструментах.

Тем не менее автоматизация постепенно проникает в технические процессы звукозаписи. Чарли Хардинг подчеркивает, что подготовка сессии к микшированию — удаление тишины, выравнивание вокала и разметка дорожек — отнимает у ассистентов звукорежиссера десятки часов рутинной работы. Современные нейросети начинают решать эту проблему: новые инструменты способны автоматически прослушивать загруженные аудиостеми и корректно переименовывать их, экономя колоссальное количество времени при работе со сложными проектами.

🧪 Творческий эксперимент: анатомия создания песни из цифрового мусора 12:53

Музыканты решили провести эксперимент и написать песню, используя исключительно доступные ИИ-инструменты. Этот опыт оказался изнурительным: по словам Иэна Киммела, процесс сильно замедлял работу, создавая ощущение «сломанной ноги». Простейшие действия, которые в обычной студии занимают полминуты — например, синтез базовой синусоидальной волны для линии баса, — требовали от десяти минут копания в интерфейсах нейросетей.

Первым этапом стало написание текста песни с помощью ChatGPT. Базовые промты Иэна Киммела о синдроме самозванца в эпоху ИИ привели к генерации банальных, шаблонных стихов, напоминавших худшие бродвейские постановки, с очевидными и скучными рифмами вроде bright/lights или remain/chains. Чтобы преодолеть творческий тупик, Чарли Хардинг задействовал известный метод взлома писательского блока, созданный лидером рок-группы Wilco Джеффом Твиди.

Суть данного метода сводится к трем шагам:

Формирование списка из десяти глаголов, семантически связанных с центральной темой (в данном случае — с синдромом самозванца).
Создание списка из десяти существительных, обозначающих осязаемые объекты конкретного города (Нью-Йорка).
Искусственное объединение этих слов в неожиданные пары для поиска новых поэтических смыслов.

Благодаря этой технике ИИ выдал более глубокие и метафоричные образы: «вторгающиеся небоскребы» (intruding skyscrapers), «крадущееся метро» (sneaking subways) и «грабящие газетные киоски». Дальнейшая детализация промтов позволила внедрить в текст географические привязки к Флэтайрон-билдинг и террасе Бетесда в Центральном парке. Примечательно, что самым полезным ИИ-помощником в этот момент Чарли иронично назвал стандартную функцию Apple Live Text, которая позволила мгновенно скопировать текст с фотографии экрана компьютера прямо в приложение «Заметки».

🎹 Сборка аудиопалитры: от платформы Suno до «фармацевтической» рекламы 20:52

Для генерации музыкальной основы авторы обратились к веб-сервису Suno, который они охарактеризовали как «аналог Midjourney для звука». На основе текстового промта алгоритм выдал синтезированный трек со встроенным вокалом, качество которого музыканты сравнили с полифоническими рингтонами для старых телефонов Nokia. Другая предложенная ИИ альтернатива и вовсе отдавала низкосортной кантри-музыкой.

С помощью специализированного сервиса AudioShake.ai полученную Lo-Fi дорожку удалось разделить на стемы — изолированные партии вокала и синтезатора. Иэн Киммел пояснил, что в коммерческой индустрии AudioShake легально применяется крупными артистами для получения чистых исходников при создании ремиксов на старые архивные записи. В поисках дополнительных элементов команда протестировала платформу Soundful, однако сгенерированная ею мелодия, по шутливому замечанию Дэвида Пирса, больше походила на безликий фоновый трек для рекламы лекарств с длинным списком побочных эффектов.

Финальные штрихи аудиопалитры собирались по крупицам:

Бета-инструмент от платформы Splice автоматически объединил четыре случайных сэмпла, из которых музыканты позаимствовали партию кик-барабана.
Интеллектуальный плагин Arcade от Output проанализировал тональность и темп стороннего трека, автоматически выдав ритмичную нарезку аудиоэлементов.
Проект Google Magenta помог сгенерировать несколько математических вариаций для миди-партий ударных инструментов.

🎛️ Финальный микс и суровый приговор критиков 26:13

Сведение композиции потребовало долгой ручной доработки: Иэн Киммел потратил около получаса на то, чтобы очистить грязные Lo-Fi звуки Suno и превратить короткий синтезаторный сэмпл в плотный, качающий бас. Поскольку искусственный интеллект оказался неспособен придумать запоминающуюся вокальную мелодию, Иэн самостоятельно напел партию в микрофон с максимальным эффектом автотюна. Полученный вокал прогнали через платформу Voice Swap.ai, которая позволяет легально, за несколько сотен долларов, покупать лицензии на ИИ-модели голосов профессиональных сессионных певцов. На финише трек обработали виртуальными ассистентами iZotope Neutron и Ozone для автоматического мастеринга.

Результатом эксперимента стала меланхоличная поп-композиция под названием «I Don’t Belong (Intruding Skyscrapers)». Оценить готовое произведение в студию пришел главный редактор The Verge Нилай Пател. Прослушав трек, он вынес бескомпромиссный вердикт: малый барабан звучит слишком рано, а ударные совершенно «не попадают в карман».

Продюсер Иэн Киммел полностью согласился с критикой, дав текущему уровню технологий емкую характеристику. По мнению Иэна Киммела, весь современный генеративный ИИ — это «пушка, стреляющая посредственным контентом уровня C+». Продюсер подчеркнул, что в реальной работе ему гораздо проще выкинуть такой материал в корзину и написать завтра новую хорошую песню с нуля, чем тратить бесценное время на попытки спасти кривой алгоритмический набросок.

🥁 Исторические аналогии: стигма автотюна и феномен Roland TR-808 37:47

Участники дискуссии сошлись во мнении, что нынешняя общественная паника вокруг ИИ во многом повторяет исторические этапы внедрения любых знаковых музыкальных технологий. Чарли Хардинг провел параллель с появлением драм-машин в 1980-х годах. Легендарная модель Roland TR-808 изначально задумывалась как простое устройство для создания демо-записей и потерпела сокрушительный коммерческий провал. Оказавшись в ломбардах за бесценок, TR-808 попала в руки первых хип-хоп продюсеров, которые переосмыслили ее специфическое «игрушечное» звучание и превратили его в фундамент современной поп-культуры. По мнению Чарли Хардинга, главные инновации с ИИ поразят мир тогда, когда подростки в своих подвалах научатся умышленно использовать эти инструменты неправильно.

Аналогичная ситуация в свое время сложилась и с технологией коррекции шага вокала. Дэвид Пирс напомнил, что после выхода суперхита Шер «Believe» продюсеры трека долгое время публично врали в интервью и придумывали технические сказки, скрывая использование автотюна. Они шли на это из-за жесточайшей общественной стигмы: использование программного обеспечения тогда приравнивалось к отсутствию таланта.

Сегодня ситуация изменилась:

Автотюн стал легитимным художественным эффектом, который исполнители включают на максимум прямо во время студийных импровизаций для раскрепощения.
Использование ИИ-моделей голоса воспринимается Иэном Киммелом как отличное подспорье для талантливых авторов песен, которые пишут хитовые мелодии, но категорически не любят тембр собственного вокала.
Внутри индустрии сейчас гораздо сильнее порицается прямое заимствование готовых коммерческих петель ударных из Splice, нежели эксперименты со сложными алгоритмами.

⚖️ Корпоративный Content ID и ловушки авторского права 44:30

Наиболее опасный аспект массового внедрения ИИ лежит не в плоскости эстетики, а в сфере юридического и финансового контроля. Нилай Пател выразил серьезное опасение, что развитие нейросетей приведет к суперавтоматизации правоприменения, из-за чего независимое творчество окажется загнано в жесткие корпоративные рамки. Уже сейчас внутренние правила музыкального бизнеса о сэмплировании и интерполяциях доведены до абсурда и практически не пересекаются с официальным законодательством.

Нилай Пател привел несколько показательных примеров жесткого давления правообладателей:

Артист Сиско (Sisqó) полностью лишился авторских прав на свой главный хит «Thong Song» только за то, что один раз вскользь выкрикнул фразу «Livin' la Vida Loca», после чего юристы Рики Мартина забрали себе все доходы от дистрибуции.
Хитмейкер T-Pain недавно потерял практически все издательские права на культовый трек «Buy U a Drank» из-за коротких текстовых цитат и заимствований, которые у него отсудили без какого-либо разбирательства.
Молодая звезда Оливия Родриго была вынуждена превентивно отдать огромные доли авторских прав Тейлор Свифт и группе Paramore из-за отдаленного сходства музыкального вайба композиций.

По мнению Нилая Патела, интеграция ИИ в подобные системы контроля приведет к тому, что богатые корпорации станут еще богаче, автоматически отслеживая малейшие совпадения в структуре треков и изымая деньги у молодых авторов. Это полностью уничтожает стимул создавать что-то новое. Чарли Хардинг подтвердил эти опасения, рассказав, что из-за агрессивных алгоритмов YouTube Content ID он принципиально отказывается делать видеоверсии подкаста Switched on Pop: робот мгновенно демонетизирует любой аналитический контент, полностью игнорируя законное право на добросовестное использование (fair use). В финале дискуссии эксперты сошлись во мнении, что бесконечная генерация безликой фоновой музыки из «черного ящика» ИИ не имеет долгосрочной ценности, поскольку слушатели всегда будут искать живой человеческий контекст и искреннюю связь с личностью артиста.