Музыкальная индустрия долгое время оставалась «последним бастионом», сопротивлявшимся полной интеграции искусственного интеллекта из-за сложности структуры звука и жесткого лицензирования. Эдвард Балассанян, основатель платформы Aimii (AI Music Initiative), в беседе с Крейгом Смитом доказывает, что технология наконец достигла «продюсерского уровня» и готова превратить музыку из статичного продукта в динамичный облачный сервис.
🎸 Музыка как сервис: новая бизнес-модель индустрии 2:45
Эдвард Балассанян пришел в музыкальный сектор из сферы системного программирования, проработав пять лет в Microsoft и основав несколько технологических инкубаторов . Его ключевая идея заключается в том, что современная музыкальная индустрия застряла в устаревшей модели «оплаты за каждое прослушивание» (pay-per-listen), которая жестко охраняется правообладателями .
Балассанян утверждает:
- Музыка должна рассматриваться не только как артефакт (запись), но и как сервис (услуга по генерации контента) .
- Модель Aimii построена по аналогии с OpenAI: пользователь платит за саму генерацию, а не отчисляет проценты с продаж готовой книги или трека .
- Aimii не ставит целью замену звезд калибра Тейлор Свифт или Дрейка, поскольку людям по-прежнему нужна человеческая связь с артистом . Однако для создателей контента в соцсетях, игровой индустрии и бизнеса генеративный ИИ становится жизненно важным инструментом.
По мнению гостя, такой подход освобождает бизнес от необходимости платить организациям по защите авторских прав (PRO) за «количество потенциальных ушей» в ресторане или гостинице, заменяя это фиксированной ежемесячной подпиской на сервис .
🛠 Технологический подход: от «монолитов» к скриптам 7:38
Балассанян критикует популярный сейчас метод обучения «монолитных» моделей — больших нейронных сетей, обученных на массиве готовых аудиофайлов . Он сравнивает это с попыткой шеф-повара воссоздать суп, просто попробовав его на вкус, без знания рецепта и ингредиентов .
Техническая архитектура Aimii принципиально отличается:
- Собственный язык AmyScript: Вместо прямой генерации аудиосигнала, ИИ-модель Aimii создает «рецепт» (скрипт) на базе оптимизированного TypeScript .
- Сборка снизу вверх: Система работает как реальный продюсер — сводит, аранжирует и накладывает эффекты на отдельные аудио-артефакты (сэмплы) в реальном времени .
- Ансамбль из моделей: Процессом управляют семь различных моделей. Одни распознают тональность и инструменты, другие разделяют звуки, третьи генерируют вокал или мелодические линии .
Такой метод, как утверждает разработчик, на порядки эффективнее с точки зрения использования ресурсов CPU и позволяет сохранять нюансы звучания отдельных инструментов (например, отличие пяти скрипок от четырех виолончелей), которые обычно «замыливаются» в монолитных трансформерах .
🤖 Борьба с «музыкальным спамом» и требования рынка 27:50
Обсуждая текущее состояние рынка, Балассанян затронул проблему кризиса перепроизводства контента. В 2023 году Spotify и другие стриминги начали массово удалять ИИ-треки из-за «спама» — огромного количества низкокачественной музыки, которую никто не слушал .
Ключевые тезисы дискуссии о качестве:
- Точность против хаоса: Главная проблема LLM-моделей в музыке — отсутствие контроля (галлюцинации). Aimii предлагает «высокоточную» (high-precision) музыку, где пользователь может задать структуру трека с точностью до такта .
- Эстетический порог: Слушатели гораздо менее терпимы к фальшивой ноте или сбою ритма, чем к плохому фото или видео .
- Маркировка контента: По мнению Эдварда, хорошую ИИ-музыку уже сейчас невозможно отличить от созданной человеком, однако плохой ИИ-контент выдает себя низким качеством продакшена .
Отдельно подчеркивается правовой аспект: компания принципиально отказывается от использования популярных моделей с непрозрачными наборами данных . Все модели Aimii обучаются «с нуля» на этически чистых и лицензионно прозрачных данных, чтобы клиенты могли использовать результат в коммерческих целях без юридических рисков .
🎹 Практическая демонстрация: создание трека в реальном времени 28:57
В ходе интервью Эдвард продемонстрировал интерфейс платформы Aimii Pro. В отличие от простых генераторов, работающих по принципу «черного ящика», здесь реализован диалоговый интерфейс .
Процесс создания трека включает:
- Взаимодействие с планом: Пользователь видит структуру песни (интро, куплет, билд-ап, припев) и может удалять или добавлять инструменты в каждую секцию .
- Точное управление временем: Можно попросить ИИ сделать аутро длиной ровно 4 секунды для соответствия видеоролику .
- Изменение параметров на лету: Одной командой можно перевести всю композицию из ре-минора в соль-минор .
- Гибридность: Профессионалы могут загружать собственные сэмплы («hero samples») — например, уникальную вокальную партию — и просить систему выстроить аранжировку вокруг них .
Балассанян пояснил, что они работают с командой из более чем 200 артистов, которые выступают в роли «аудиторского комитета», проверяя, насколько алгоритмы соответствуют стандартам жанров .
🚀 Будущее и этика: заменят ли роботы композиторов? 38:41
Отвечая на вопрос о будущем, Эдвард Балассанян выразил уверенность, что ИИ станет катализатором, а не убийцей творчества.
Прогнозы и этические ограничения:
- Результаты работы Aimii нельзя защитить авторским правом (согласно текущим нормам) и нельзя использовать для обучения других моделей .
- ИИ в музыке уже достиг стадии «продюсерского уровня» .
- Страх индустрии перед ИИ, наблюдавшийся год назад, сменился ажиотажным спросом со стороны корпоративных клиентов (B2B) .
Подводя итог, гость отметил, что музыка — это уникальное сочетание искусства, математики и науки . Роль ИИ здесь — взять на себя рутинную, «формульную» часть работы (например, соблюдение структуры трека для Spotify), оставляя человеку самое важное: создание уникальных мелодий, смыслов и эмоциональных акцентов.