# Эдвард Балассанян: «Музыка — это наполовину математика, и ИИ в ней уже достиг уровня профи»

Источник: https://www.youtube.com/watch?v=WU7VCX9bC2o
Канал: Eye on AI
Опубликовано: 20.05.2024

---

Музыкальная индустрия долгое время оставалась «последним бастионом», сопротивлявшимся полной интеграции искусственного интеллекта из-за сложности структуры звука и жесткого лицензирования. Эдвард Балассанян, основатель платформы Aimii (AI Music Initiative), в беседе с Крейгом Смитом доказывает, что технология наконец достигла «продюсерского уровня» и готова превратить музыку из статичного продукта в динамичный облачный сервис.

## 🎸 Музыка как сервис: новая бизнес-модель индустрии
[[JUMP:02:45]]

Эдвард Балассанян пришел в музыкальный сектор из сферы системного программирования, проработав пять лет в Microsoft и основав несколько технологических инкубаторов [03:37]. Его ключевая идея заключается в том, что современная музыкальная индустрия застряла в устаревшей модели «оплаты за каждое прослушивание» (pay-per-listen), которая жестко охраняется правообладателями [05:51].

Балассанян утверждает:

*   Музыка должна рассматриваться не только как артефакт (запись), но и как сервис (услуга по генерации контента) [03:25].
*   Модель Aimii построена по аналогии с OpenAI: пользователь платит за саму генерацию, а не отчисляет проценты с продаж готовой книги или трека [18:30].
*   Aimii не ставит целью замену звезд калибра Тейлор Свифт или Дрейка, поскольку людям по-прежнему нужна человеческая связь с артистом [21:08]. Однако для создателей контента в соцсетях, игровой индустрии и бизнеса генеративный ИИ становится жизненно важным инструментом.

По мнению гостя, такой подход освобождает бизнес от необходимости платить организациям по защите авторских прав (PRO) за «количество потенциальных ушей» в ресторане или гостинице, заменяя это фиксированной ежемесячной подпиской на сервис [26:15].

## 🛠 Технологический подход: от «монолитов» к скриптам
[[JUMP:07:38]]

Балассанян критикует популярный сейчас метод обучения «монолитных» моделей — больших нейронных сетей, обученных на массиве готовых аудиофайлов [07:12]. Он сравнивает это с попыткой шеф-повара воссоздать суп, просто попробовав его на вкус, без знания рецепта и ингредиентов [08:19].

Техническая архитектура Aimii принципиально отличается:

*   **Собственный язык AmyScript:** Вместо прямой генерации аудиосигнала, ИИ-модель Aimii создает «рецепт» (скрипт) на базе оптимизированного TypeScript [14:44].
*   **Сборка снизу вверх:** Система работает как реальный продюсер — сводит, аранжирует и накладывает эффекты на отдельные аудио-артефакты (сэмплы) в реальном времени [14:04].
*   **Ансамбль из моделей:** Процессом управляют семь различных моделей. Одни распознают тональность и инструменты, другие разделяют звуки, третьи генерируют вокал или мелодические линии [16:06].

Такой метод, как утверждает разработчик, на порядки эффективнее с точки зрения использования ресурсов CPU и позволяет сохранять нюансы звучания отдельных инструментов (например, отличие пяти скрипок от четырех виолончелей), которые обычно «замыливаются» в монолитных трансформерах [10:38].

## 🤖 Борьба с «музыкальным спамом» и требования рынка
[[JUMP:27:50]]

Обсуждая текущее состояние рынка, Балассанян затронул проблему кризиса перепроизводства контента. В 2023 году Spotify и другие стриминги начали массово удалять ИИ-треки из-за «спама» — огромного количества низкокачественной музыки, которую никто не слушал [37:03].

Ключевые тезисы дискуссии о качестве:

1.  **Точность против хаоса:** Главная проблема LLM-моделей в музыке — отсутствие контроля (галлюцинации). Aimii предлагает «высокоточную» (high-precision) музыку, где пользователь может задать структуру трека с точностью до такта [28:02].
2.  **Эстетический порог:** Слушатели гораздо менее терпимы к фальшивой ноте или сбою ритма, чем к плохому фото или видео [40:11].
3.  **Маркировка контента:** По мнению Эдварда, хорошую ИИ-музыку уже сейчас невозможно отличить от созданной человеком, однако плохой ИИ-контент выдает себя низким качеством продакшена [36:23].

Отдельно подчеркивается правовой аспект: компания принципиально отказывается от использования популярных моделей с непрозрачными наборами данных [44:40]. Все модели Aimii обучаются «с нуля» на этически чистых и лицензионно прозрачных данных, чтобы клиенты могли использовать результат в коммерческих целях без юридических рисков [45:19].

## 🎹 Практическая демонстрация: создание трека в реальном времени
[[JUMP:28:57]]

В ходе интервью Эдвард продемонстрировал интерфейс платформы Aimii Pro. В отличие от простых генераторов, работающих по принципу «черного ящика», здесь реализован диалоговый интерфейс [29:52].

Процесс создания трека включает:

*   **Взаимодействие с планом:** Пользователь видит структуру песни (интро, куплет, билд-ап, припев) и может удалять или добавлять инструменты в каждую секцию [30:32].
*   **Точное управление временем:** Можно попросить ИИ сделать аутро длиной ровно 4 секунды для соответствия видеоролику [31:57].
*   **Изменение параметров на лету:** Одной командой можно перевести всю композицию из ре-минора в соль-минор [31:01].
*   **Гибридность:** Профессионалы могут загружать собственные сэмплы («hero samples») — например, уникальную вокальную партию — и просить систему выстроить аранжировку вокруг них [13:38].

Балассанян пояснил, что они работают с командой из более чем 200 артистов, которые выступают в роли «аудиторского комитета», проверяя, насколько алгоритмы соответствуют стандартам жанров [33:46].

## 🚀 Будущее и этика: заменят ли роботы композиторов?
[[JUMP:38:41]]

Отвечая на вопрос о будущем, Эдвард Балассанян выразил уверенность, что ИИ станет катализатором, а не убийцей творчества.

Прогнозы и этические ограничения:

*   Результаты работы Aimii нельзя защитить авторским правом (согласно текущим нормам) и нельзя использовать для обучения других моделей [35:05].
*   ИИ в музыке уже достиг стадии «продюсерского уровня» [38:41].
*   Страх индустрии перед ИИ, наблюдавшийся год назад, сменился ажиотажным спросом со стороны корпоративных клиентов (B2B) [41:17].

Подводя итог, гость отметил, что музыка — это уникальное сочетание искусства, математики и науки [39:46]. Роль ИИ здесь — взять на себя рутинную, «формульную» часть работы (например, соблюдение структуры трека для Spotify), оставляя человеку самое важное: создание уникальных мелодий, смыслов и эмоциональных акцентов.