# Алекс Клейн о будущем музыки: как генеративный ИИ и устройство Stem 2 изменят индустрию

Источник: https://www.youtube.com/watch?v=5jstu3suGx0
Канал: Eye on AI
Опубликовано: 29.10.2023

---

В эпоху стремительного развития искусственного интеллекта музыкальная индустрия оказалась на пороге тектонических сдвигов. Пока одни компании лишь осторожно присматриваются к новым технологиям, создатель инновационного устройства Stem Player Алекс Клейн уже прошел путь от журналистских расследований и конструкторов для детей до громкого (и скандального) сотрудничества с Канье Уэстом. В интервью для канала Eye on AI Клейн рассказывает, как генеративный ИИ превращает прослушивание музыки из пассивного процесса в творческий акт и почему будущее аудио — за «органическим» дизайном и аппаратными решениями, способными на лету разбирать любую песню на части.

## 🛠 От детских конструкторов до большой электроники
[[JUMP:02:16]]

Путь Алекса Клейна в мир технологий начался необычно для основателя ИТ-компании. По его словам, он начинал как журналист, работая в таких изданиях, как *Newsweek*, *The Daily Beast* и *New Republic*, где освещал темы от движения Occupy Wall Street до налоговых деклараций Митта Ромни [04:08]. Этот бэкграунд сформировал его подход к технологиям: Клейн утверждает, что вместо создания продуктов, которые «зомбируют» пользователя, он стремился создать экосистему, позволяющую видеть устройство изнутри и понимать принцип его работы [06:09].

Первым продуктом Клейна в 2013 году стал компьютерный комплект Kano — ярко-оранжевая коробка с цветными компонентами и пошаговой историей-инструкцией. По данным Клейна, компания продала более миллиона таких наборов по всему миру, заручившись поддержкой таких гигантов, как Microsoft, Disney и Warner Brothers [06:48]. 

Ключевые этапы развития Kano:

*   **Идея:** Создать компьютер, который шестилетний ребенок сможет собрать сам.
*   **Технологическая база:** Использование Raspberry Pi как основы для доступного пользовательского устройства [09:41].
*   **Философия:** «Anyone can make» (Каждый может создавать) — концепция, согласно которой мир технологий не должен быть закрытым клубом для избранных [16:40].

Этот опыт «деконструкции» сложных систем позже лег в основу технологии Stem — возможности разделять музыкальный трек на отдельные составляющие [31:49].

## 🎹 Эра Stem Player и сотрудничество с Канье Уэстом
[[JUMP:17:33]]

Встреча с Канье Уэстом на выставке CES стала поворотным моментом для компании Клейна. По его воспоминаниям, артист проявил искренний интерес к прозрачному планшету и простоте дизайна Kano [17:45]. Это знакомство переросло в творческий союз: Клейн даже выступил соавтором текста в альбоме «Jesus Is King» [19:05].

Результатом сотрудничества стал Stem Player — компактное устройство, позволяющее пользователю в реальном времени управлять «стемами» (изолированными дорожками) песни: вокалом, барабанами, басом и инструментальной частью [22:30]. 

История партнерства с Уэстом была полна противоречий:

1.  **Продуктивный хаос:** Клейн описывает Уэста как человека, который делает всё сам и обладает огромной энергией, но испытывает трудности с доведением проектов до конца [28:02].
2.  **Эксклюзивность:** Альбом «Donda 2» был выпущен исключительно на Stem Player, что стало протестом артиста против стриминговых платформ [35:50].
3.  **Разрыв:** Клейн утверждает, что помимо публичных антисемитских высказываний Уэста, их разделило отношение к ИИ. По словам гостя, артист был категорически против использования ИИ в продукте, настаивая на том, что на устройстве должна быть только его музыка, в то время как Клейн видел будущее в генеративном ИИ, способном обрабатывать любую песню [20:17].

Несмотря на прекращение партнерства, Клейн сообщает, что первая партия из 100 000 устройств была полностью распродана, и проект принес чистую прибыль [36:48].

## 🧠 Технология за кадром: Как ИИ «слышит» музыку
[[JUMP:23:43]]

Техническая суть Stem Player заключается в задаче, называемой Source Separation (разделение источников). Клейн объясняет, что хотя аналоговые методы фильтрации частот существуют десятилетиями, настоящий прорыв произошел в последние три года благодаря генеративному машинному обучению [25:08].

По мнению Клейна, человеческое ухо распознает голос по нюансам, которые невозможно выделить простым алгоритмом сортировки. Современный подход Stem использует:

*   **Гибридные модели трансформеров:** Схожие по архитектуре с GPT, они обучаются на размеченных данных (вокал, барабаны и т.д.), чтобы «достраивать» и заполнять пробелы в выделенных дорожках [44:12].
*   **Синтез речи:** Технологии, подобные Google WaveNet, помогают точнее реконструировать потерянные при разделении фрагменты аудио [26:12].
*   **Глубокое обучение:** Модели детекции битов позволяют находить сильные доли, даже если темп песни меняется, что критично для создания качественных мэшапов [44:29].

## 🚀 Будущее: Stem 2 и «Магический» интерфейс
[[JUMP:38:27]]

Алекс Клейн анонсировал выход Stem 2 в декабре текущего года [36:58]. Новое устройство призвано решить главную проблему первой версии — необходимость физического подключения к компьютеру для загрузки музыки.

Особенности Stem 2, озвученные Клейном:

*   **Автономность:** Устройство будет работать как Bluetooth-динамик, способный преобразовывать входящий аудиопоток в стемы в режиме реального времени [42:47].
*   **Органический дизайн:** Вместо жесткого пластика компания стремится к созданию «мягких и податливых» устройств, которые ощущаются как продолжение тела [38:39].
*   **Новая модель дистрибуции:** Клейн считает, что текущая экономика музыкальной индустрии «неисправна» (janky). Он надеется, что новые форматы прослушивания позволят артистам по-новому монетизировать контент, а слушателям — получать более глубокий опыт взаимодействия с музыкой [39:32].

В долгосрочной перспективе Клейн планирует выйти за рамки музыки. Он утверждает, что технологии разделения сигналов могут быть применены в видео (проект Stem Projector) и даже в медицине — например, для создания умных слуховых аппаратов, способных выделить один голос в шумной комнате [47:12, 48:21]. Однако в ближайшие три года фокус компании останется исключительно на аудио [52:15].