# Как журналисты и продюсеры создавали песню с помощью ИИ

Источник: https://www.youtube.com/watch?v=NCmuITo5iVg
Канал: The Vergecast
Опубликовано: 18.09.2023

---

В эпоху стремительного развития технологий музыкальная индустрия сталкивается с глубинным вызовом: способны ли алгоритмы заменить человеческое творчество? В рамках специального выпуска подкаста The Vergecast журналист Дэвид Пирс вместе с профессиональными музыкантами Чарли Хардингом и Иэном Киммелом проверили в деле современные нейросети, попытавшись создать полноценный трек с нуля. Этот эксперимент наглядно продемонстрировал текущие технологические ограничения ИИ и обнажил серьезные угрозы, которые автоматизация несет для системы авторского права.

## 📱 Рингтоны Nokia и ChatGPT: как ИИ автоматизирует рутину
[[JUMP:0:01]]

Журналист Дэвид Пирс начинает масштабное исследование с теста популярного сервиса Voiceify.ai, предназначенного для клонирования поющего голоса. Загрузив часовую запись собственного вокала, ведущий наложил полученную ИИ-модель на известные треки The Beatles и Элвиса Пресли. Несмотря на то, что результат показался Пирсу забавным и отчасти узнаваемым, алгоритм полностью терял структуру песни на сложных вокальных переходах. 

В повседневной практике профессиональных музыкантов ИИ пока занимает весьма скромное место. Музыкальный обозреватель Чарли Хардинг использует ChatGPT исключительно как продвинутый словарь рифм. Продюсер Иэн Киммел, работавший с такими гигантами, как BTS и Мэри Джей Блайдж, признается, что чаще всего генерирует в чат-боте эффективные бизнес-письма для общения с клиентами, чтобы иметь возможность оплачивать жилье в Нью-Йорке. По мнению Иэна Киммела, искусственный интеллект в его нынешнем состоянии не способен конкурировать со специалистами, умеющими играть на реальных инструментах.

Тем не менее автоматизация постепенно проникает в технические процессы звукозаписи. Чарли Хардинг подчеркивает, что подготовка сессии к микшированию — удаление тишины, выравнивание вокала и разметка дорожек — отнимает у ассистентов звукорежиссера десятки часов рутинной работы. Современные нейросети начинают решать эту проблему: новые инструменты способны автоматически прослушивать загруженные аудиостеми и корректно переименовывать их, экономя колоссальное количество времени при работе со сложными проектами.

## 🧪 Творческий эксперимент: анатомия создания песни из цифрового мусора
[[JUMP:12:53]]

Музыканты решили провести эксперимент и написать песню, используя исключительно доступные ИИ-инструменты. Этот опыт оказался изнурительным: по словам Иэна Киммела, процесс сильно замедлял работу, создавая ощущение «сломанной ноги». Простейшие действия, которые в обычной студии занимают полминуты — например, синтез базовой синусоидальной волны для линии баса, — требовали от десяти минут копания в интерфейсах нейросетей.

Первым этапом стало написание текста песни с помощью ChatGPT. Базовые промты Иэна Киммела о синдроме самозванца в эпоху ИИ привели к генерации банальных, шаблонных стихов, напоминавших худшие бродвейские постановки, с очевидными и скучными рифмами вроде *bright/lights* или *remain/chains*. Чтобы преодолеть творческий тупик, Чарли Хардинг задействовал известный метод взлома писательского блока, созданный лидером рок-группы Wilco Джеффом Твиди. 

Суть данного метода сводится к трем шагам:

* Формирование списка из десяти глаголов, семантически связанных с центральной темой (в данном случае — с синдромом самозванца).
* Создание списка из десяти существительных, обозначающих осязаемые объекты конкретного города (Нью-Йорка).
* Искусственное объединение этих слов в неожиданные пары для поиска новых поэтических смыслов.

Благодаря этой технике ИИ выдал более глубокие и метафоричные образы: «вторгающиеся небоскребы» (*intruding skyscrapers*), «крадущееся метро» (*sneaking subways*) и «грабящие газетные киоски». Дальнейшая детализация промтов позволила внедрить в текст географические привязки к Флэтайрон-билдинг и террасе Бетесда в Центральном парке. Примечательно, что самым полезным ИИ-помощником в этот момент Чарли иронично назвал стандартную функцию Apple Live Text, которая позволила мгновенно скопировать текст с фотографии экрана компьютера прямо в приложение «Заметки».

## 🎹 Сборка аудиопалитры: от платформы Suno до «фармацевтической» рекламы
[[JUMP:20:52]]

Для генерации музыкальной основы авторы обратились к веб-сервису Suno, который они охарактеризовали как «аналог Midjourney для звука». На основе текстового промта алгоритм выдал синтезированный трек со встроенным вокалом, качество которого музыканты сравнили с полифоническими рингтонами для старых телефонов Nokia. Другая предложенная ИИ альтернатива и вовсе отдавала низкосортной кантри-музыкой.

С помощью специализированного сервиса AudioShake.ai полученную Lo-Fi дорожку удалось разделить на стемы — изолированные партии вокала и синтезатора. Иэн Киммел пояснил, что в коммерческой индустрии AudioShake легально применяется крупными артистами для получения чистых исходников при создании ремиксов на старые архивные записи. В поисках дополнительных элементов команда протестировала платформу Soundful, однако сгенерированная ею мелодия, по шутливому замечанию Дэвида Пирса, больше походила на безликий фоновый трек для рекламы лекарств с длинным списком побочных эффектов.

Финальные штрихи аудиопалитры собирались по крупицам:

* Бета-инструмент от платформы Splice автоматически объединил четыре случайных сэмпла, из которых музыканты позаимствовали партию кик-барабана.
* Интеллектуальный плагин Arcade от Output проанализировал тональность и темп стороннего трека, автоматически выдав ритмичную нарезку аудиоэлементов.
* Проект Google Magenta помог сгенерировать несколько математических вариаций для миди-партий ударных инструментов.

## 🎛️ Финальный микс и суровый приговор критиков
[[JUMP:26:13]]

Сведение композиции потребовало долгой ручной доработки: Иэн Киммел потратил около получаса на то, чтобы очистить грязные Lo-Fi звуки Suno и превратить короткий синтезаторный сэмпл в плотный, качающий бас. Поскольку искусственный интеллект оказался неспособен придумать запоминающуюся вокальную мелодию, Иэн самостоятельно напел партию в микрофон с максимальным эффектом автотюна. Полученный вокал прогнали через платформу Voice Swap.ai, которая позволяет легально, за несколько сотен долларов, покупать лицензии на ИИ-модели голосов профессиональных сессионных певцов. На финише трек обработали виртуальными ассистентами iZotope Neutron и Ozone для автоматического мастеринга.

Результатом эксперимента стала меланхоличная поп-композиция под названием *«I Don’t Belong (Intruding Skyscrapers)»*. Оценить готовое произведение в студию пришел главный редактор The Verge Нилай Пател. Прослушав трек, он вынес бескомпромиссный вердикт: малый барабан звучит слишком рано, а ударные совершенно «не попадают в карман». 

Продюсер Иэн Киммел полностью согласился с критикой, дав текущему уровню технологий емкую характеристику. По мнению Иэна Киммела, весь современный генеративный ИИ — это «пушка, стреляющая посредственным контентом уровня C+». Продюсер подчеркнул, что в реальной работе ему гораздо проще выкинуть такой материал в корзину и написать завтра новую хорошую песню с нуля, чем тратить бесценное время на попытки спасти кривой алгоритмический набросок.

## 🥁 Исторические аналогии: стигма автотюна и феномен Roland TR-808
[[JUMP:37:47]]

Участники дискуссии сошлись во мнении, что нынешняя общественная паника вокруг ИИ во многом повторяет исторические этапы внедрения любых знаковых музыкальных технологий. Чарли Хардинг провел параллель с появлением драм-машин в 1980-х годах. Легендарная модель Roland TR-808 изначально задумывалась как простое устройство для создания демо-записей и потерпела сокрушительный коммерческий провал. Оказавшись в ломбардах за бесценок, TR-808 попала в руки первых хип-хоп продюсеров, которые переосмыслили ее специфическое «игрушечное» звучание и превратили его в фундамент современной поп-культуры. По мнению Чарли Хардинга, главные инновации с ИИ поразят мир тогда, когда подростки в своих подвалах научатся умышленно использовать эти инструменты неправильно.

Аналогичная ситуация в свое время сложилась и с технологией коррекции шага вокала. Дэвид Пирс напомнил, что после выхода суперхита Шер *«Believe»* продюсеры трека долгое время публично врали в интервью и придумывали технические сказки, скрывая использование автотюна. Они шли на это из-за жесточайшей общественной стигмы: использование программного обеспечения тогда приравнивалось к отсутствию таланта. 

Сегодня ситуация изменилась:

* Автотюн стал легитимным художественным эффектом, который исполнители включают на максимум прямо во время студийных импровизаций для раскрепощения.
* Использование ИИ-моделей голоса воспринимается Иэном Киммелом как отличное подспорье для талантливых авторов песен, которые пишут хитовые мелодии, но категорически не любят тембр собственного вокала.
* Внутри индустрии сейчас гораздо сильнее порицается прямое заимствование готовых коммерческих петель ударных из Splice, нежели эксперименты со сложными алгоритмами.

## ⚖️ Корпоративный Content ID и ловушки авторского права
[[JUMP:44:30]]

Наиболее опасный аспект массового внедрения ИИ лежит не в плоскости эстетики, а в сфере юридического и финансового контроля. Нилай Пател выразил серьезное опасение, что развитие нейросетей приведет к суперавтоматизации правоприменения, из-за чего независимое творчество окажется загнано в жесткие корпоративные рамки. Уже сейчас внутренние правила музыкального бизнеса о сэмплировании и интерполяциях доведены до абсурда и практически не пересекаются с официальным законодательством.

Нилай Пател привел несколько показательных примеров жесткого давления правообладателей:

* Артист Сиско (Sisqó) полностью лишился авторских прав на свой главный хит *«Thong Song»* только за то, что один раз вскользь выкрикнул фразу «Livin' la Vida Loca», после чего юристы Рики Мартина забрали себе все доходы от дистрибуции.
* Хитмейкер T-Pain недавно потерял практически все издательские права на культовый трек *«Buy U a Drank»* из-за коротких текстовых цитат и заимствований, которые у него отсудили без какого-либо разбирательства.
* Молодая звезда Оливия Родриго была вынуждена превентивно отдать огромные доли авторских прав Тейлор Свифт и группе Paramore из-за отдаленного сходства музыкального вайба композиций.

По мнению Нилая Патела, интеграция ИИ в подобные системы контроля приведет к тому, что богатые корпорации станут еще богаче, автоматически отслеживая малейшие совпадения в структуре треков и изымая деньги у молодых авторов. Это полностью уничтожает стимул создавать что-то новое. Чарли Хардинг подтвердил эти опасения, рассказав, что из-за агрессивных алгоритмов YouTube Content ID он принципиально отказывается делать видеоверсии подкаста *Switched on Pop*: робот мгновенно демонетизирует любой аналитический контент, полностью игнорируя законное право на добросовестное использование (*fair use*). В финале дискуссии эксперты сошлись во мнении, что бесконечная генерация безликой фоновой музыки из «черного ящика» ИИ не имеет долгосрочной ценности, поскольку слушатели всегда будут искать живой человеческий контекст и искреннюю связь с личностью артиста.