# Даг Эк: как проект Magenta обучает нейросети искусству и музыке

Источник: https://www.youtube.com/watch?v=yz-fHidp1M8
Канал: Y Combinator
Опубликовано: 21.07.2017

---

С развитием генеративного искусственного интеллекта искусство и технологии пересекаются всё теснее, заставляя переосмыслить саму природу человеческого творчества. В рамках подкаста Y Combinator исследователь ИИ Даг Эк (Doug Eck) подробно рассказывает о проекте Magenta от Google, создании открытых инструментов для музыкантов и художников, а также о том, почему несовершенство моделей машинного обучения становится новым культурным кодом.

## 🎨 Эстетика ошибок: почему несовершенство кода становится искусством
[[JUMP:0:00]]

Интервью открывает знаменитая цитата музыканта и продюсера Брайана Ино: 

> «Всё, что вы сейчас находите странным, уродливым, неудобным и неприятным в новом медиуме, обязательно станет его визитной карточкой. Искажение компакт-диска, дрожание цифрового видео, паршивый звук 8-бит — всё это будет лелеяться и эмулироваться, как только этого можно будет избежать. Это звук неудачи. Так много современного искусства — это звук вещей, выходящих из-под контроля».

Даг Эк использовал это высказывание на конференции Google I/O, чтобы обозначить четкую границу между инженерным поиском и чистым искусством. По его мнению, создатели Magenta не пытаются быть «ML-художниками», их цель — дать создателям контента принципиально новые медиумы. Исторически разработчики инструментов всегда стремились избежать искажений: создатели пленочных камер не планировали дефекты экспозиции, а инженеры гитарных усилителей не рассчитывали на перегруз звука. Однако именно эти «поломки» впоследствии сформировали культовые жанры. Даг Эк считает, что при столкновении с новой «умной» моделью естественная реакция художника — попытаться сломать ее или доказать её глупость. Но в процессе этого деструктивного поиска рождаются новые эстетические смыслы.

---

## 🧬 Проект Magenta и архитектура звука: от NSynth до латентных пространств
[[JUMP:2:31]]

В настоящее время команда Magenta сфокусирована на проекте NSynth, который использует модели глубокого обучения для генерации совершенно новых звуков. В основе технологии лежит работа с так называемым латентным пространством (latent space) — сжатым математическим представлением аудиоданных. Модель не способна механически запомнить исходный аудиофайл, но она реконструирует его на основе векторов.

Главные особенности текущей фазы разработки NSynth:

* **Неточность регенерации:** Модель не возвращает точную копию оригинального звука на выходе, но воссоздает нечто близкое к нему, заполняя пустоты уникальными акустическими текстурами.
* **Исследование пространства:** Пользователи могут перемещаться между точками в латентном пространстве и буквально слушать, какие звуки находятся на стыке разных инструментов.
* **Технологические ограничения:** На данный момент процесс синтеза звука остается медленным и не может выполняться в режиме реального времени (real-time IO).

Параллельно команда полностью переосмысляет генерацию музыкальных последовательностей. Первые модели Magenta Даг Эк открыто называет примитивными: это были простые рекуррентные нейросети (RNN), которые переводили MIDI в MIDI, используя механизмы внимания и базовое сэмплирование. Теперь разработчики переходят к обучению на масштабных датасетах живого исполнения. В фокусе внимания инженеров оказались полифония, динамические оттенки и экспрессивный тайминг.

Главной методологической проблемой Magenta Даг Эк считает оценку качества работы моделей. В ИИ-сообществе до сих пор нет четкого ответа на вопрос, как объективно измерить «художественную ценность» генеративного контента. В качестве шутливого стартап-плана в стиле Y Combinator Даг Эк предложил запустить вирусное мобильное приложение, внедрить туда систему коллаборативной фильтрации (как в рекомендательных движках) и собирать сигналы пользовательских предпочтений для дообучения моделей на основе человеческого фидбека.

---

## 🎹 Обратная связь от артистов: почему музыкантам не нужен запуск «одной кнопкой»
[[JUMP:6:40]]

Первые отзывы от реальных музыкантов заставили инженеров Magenta пересмотреть продуктовый подход. Даг Эк признает, что консольные Python-команды, генерирующие тысячи MIDI-файлов, абсолютно не подходят для реального творческого воркфлоу. Если музыканты действительно должны использовать ИИ, им нужны гибкие интерфейсы. Сейчас команда работает над интеграцией моделей в популярные DAW (цифровые звуковые рабочие станции), такие как Ableton.

За пределами музыки команда получила неожиданные инсайты от визуальной модели Sketch RNN. Эта рекуррентная нейросеть обучалась рисовать на основе данных геймифицированного проекта Google QuickDraw, где пользователи за 20 секунд пытались набросать заданный объект. Художники начали использовать Sketch RNN не для копирования, а в качестве инструмента поиска аномалий. Нейросеть имеет четкое представление о «вероятном» и среднем образе предмета в латентном пространстве, поэтому творцы используют ее для выявления самых странных и нестандартных примеров рисования.

Особый интерес к музыкальным инструментам Magenta проявили музыканты-экспериментаторы. Нейросеть способна генерировать гибридные звуки (например, нечто среднее между тромбоном и флейтой), которые обладают уникальными гармоническими свойствами. Возникающая цифровая «глючность» кардинально отличается от стандартного клиппинга: она звучит музыкально и живо. Разработчик из команды Magenta Джесси Энгель (Jesse Engel) создал плагин для Ableton, позволяющий стирать перкуссионное начало ноты (onset), обнажая «хвосты» звуков, сгенерированных нейросетью. В этих затухающих шлейфах накапливается цифровой шум, возникают микродетонации и странные акустические артефакты, которые профессиональные музыканты находят невероятно вдохновляющими.

---

## 🧠 История LSTM: как три человека в швейцарской комнате предсказали будущее ИИ
[[JUMP:13:03]]

Разбирая архитектуру моделей, Даг Эк упоминает интерактивный веб-инструмент AI Duet. Пользователь играет на клавиатуре короткую фразу, а сеть на базе архитектуры LSTM (долгая краткосрочная память) отвечает ему. Любопытно, что эта технология базируется на научных трудах, опубликованных еще в 2002 году. Даг Эк отмечает, что профессиональные джазовые музыканты используют AI Duet как игру «в пасс»: они посылают модели импульс и смотрят, как примитивная сеть отреагирует, подстраиваясь под её странности, вместо того чтобы ждать от нее сложной долгой мелодии.

Даг Эк поделился уникальными воспоминаниями из истории развития ИИ. В начале 2000-х годов он работал в швейцарской лаборатории IDSIA под руководством Юргена Шмидхубера (Jürgen Schmidhuber). 

> «Был момент времени, когда в комнате в Манно, пригороде Лугано в Швейцарии, сидели всего три человека в мире, которые реально использовали LSTM. Это был я, Феликс Герс (Felix Gers) и Алекс Грейвс (Alex Graves)».

Из этой тройки именно Алекс Грейвс продолжил упорно развивать рекуррентные нейросети, пытаясь адаптировать их для анализа последовательностей. Потребовалось почти двадцать лет, чтобы этот подход стал «ночным успехом» и лег в основу современных систем распознавания речи и машинного перевода.

По мнению Дага Эка, фундаментальный прорыв, заставивший LSTM и сверточные нейросети (CNN) наконец работать, заключался не в изменении математической базы, а в масштабировании. Эти модели по своей природе крайне «прожорливы» до данных (data absorptive). В начале 2000-х исследователи были ограничены слабыми компьютерами и обучали сети всего с 50–100 скрытыми нейронами. Как только вычислительные мощности выросли, а объемы памяти увеличились, старые алгоритмы из 80-х и 90-х годов начали показывать феноменальные результаты.

---

## 🎼 Иерархия против хаоса: почему ИИ не может заменить Баха
[[JUMP:20:25]]

Даг Эк убежден, что в своей базовой, «ванильной» форме архитектура LSTM принципиально не способна справляться с удержанием долгосрочной иерархической структуры. Музыка становится интересной и связной на отрезках длиннее 5–10 секунд только тогда, когда в ней есть повторения, изменения гармонии и осознанные смены аккордов.

Для решения этой проблемы ИИ-сообществу необходимо развивать:

1.  Условные генеративные модели (conditional models), где контекст генерации динамически меняется.
2.  Явные многоуровневые иерархические архитектуры.
3.  Новые методы сэмплирования при инференсе.

В качестве примера Даг Эк приводит эксперимент с генерацией фуг в стиле Иоганна Себастьяна Баха. Когда неподготовленным слушателям давали сравнить оригинальные произведения и треки ИИ, они часто оценивали сгенерированные нейросетью мелодии как «более баховские», чем сам Бах. С научной точки зрения это объясняется тем, что сжатая модель с ограниченной памятью вычленяет исключительно главные оси дисперсии данных. При генерации с низкой температурой (без добавления случайного шума) модель выдает утрированную карикатуру на стиль — своего рода «платонический средний результат», лишенный человеческих нюансов и смелых отклонений от канона.

---

## 📝 Литература, шутки и нелинейные сюжеты: за рамками музыки
[[JUMP:23:06]]

Заглядывая вперед на 28–40 лет, Даг Эк прогнозирует, что машинное обучение станет стандартной частью повседневного инструментария для коммуникации и творческого самовыражения. При этом инженеры, создающие эти системы, по определению не могут предугадать, в какую сторону художники развернут технологию.

Среди перспективных долгосрочных направлений Даг Эк выделяет генерацию литературных сюжетов. Человеческий мозг имеет когнитивные ограничения при удержании сверхсложных текстовых архитектоник. В отличие от простых RNN, которые пишут текст линейно слева направо, продвинутые генеративные модели будущего смогут проектировать нелинейную структуру повествования: намечать арки персонажей, вводить неожиданные развязки и балансировать элементы сюжета так, как человеку сделать крайне трудно, но при этом текст останется понятным для читателя.

Еще более сложным вызовом исследователь называет юмор. Хорошая шутка строится на неожиданном стилистическом или логическом развороте: повествование уводит слушателя в одну сторону, а панчлайн мгновенно переносит в другую, сохраняя общую логику. Даг Эк предполагает, что многомерные языковые модели смогут просчитывать эти пересечения смыслов в высокоразмерных пространствах и генерировать шутки с особым «машинным» привкусом, которые будут невероятно смешными именно из-за своей безупречной математической фрактальности. На текущем же этапе развития человечество пока не способно заставить ИИ написать даже один абсолютно связный абзац текста без потери логики.

---

## 🕹️ Глубокое обучение с подкреплением: правила игры для нейросетей
[[JUMP:26:20]]

Развитие генеративного ИИ традиционно сталкивается со скепсисом. Даг Эк напоминает, что появление фотографии в свое время вызвало панику среди живописцев, боявшихся гибели классической картины. В качестве современного примера он приводит историю исследователя Боба Штурма (Bob Sturm), который обучал LSTM генерировать фолк-музыку и получил в соцсетях обвинение в том, что его деятельность «опасна для человечества». Даг Эк относится к этому спокойно, подчеркивая: настоящее искусство никогда не должно нравиться абсолютно всем.

С технической точки зрения стандартные генеративные модели (уровень 101) имеют серьезную проблему — они «играют безопасно». Если модель обучают просто восстанавливать исходные данные, её выходы получаются размытыми и усредненными. Это похоже на алгоритмы колоризации изображений, которые красят все футболки в серый цвет, чтобы минимизировать штраф за ошибку.

Революция Яна Гудфеллоу (Ian Goodfellow), создавшего генеративно-состязательные сети (GAN), заставила модели выйти из этой зоны комфорта за счет введения внутреннего критика. Команда Magenta пошла дальше и применила для tilted-генерации обучение с подкреплением (Reinforcement Learning).

Инженеры использовали алгоритм Deep Q-learning. Базовая модель LSTM генерировала скучные музыкальные цепочки. Однако, когда к ней подключили внешнюю систему вознаграждения (скалярный реворд) за соблюдение классических правил контрапункта XVIII века, музыка мгновенно изменилась — она стала намного более запоминающейся и «цепляющей».

Даг Эк видит в этом огромный потенциал для креативного кодинга:

* **Отделение правил от архитектуры:** Правила не зашиваются внутрь нейросети. Сеть учится на живых данных, а код валидатора выступает в роли внешней среды, поощряющей за определенные паттерны.
* **Гибкие ограничения:** Можно обучить Sketch RNN рисовать кошек, но добавить правило «минимум прямых линий». Модель сохранит понимание формы кошки из датасета, но будет изгибать линии, чтобы максимизировать награду.
* **Абстрактные фильтры:** Музыкант может написать алгоритмический оценщик для таких понятий, как «мерцающий звук» или «высокая локальная изменчивость», и плавно смещать фокус обученной модели в нужную сторону.

---

## 🎵 Опасность «идеального поп-хита» и будущее творческого кодинга
[[JUMP:36:24]]

В индустрии существует страх, что автоматизация позволит алгоритмам непрерывно штамповать «идеальные поп-песни», что обесценит труд музыкантов. Даг Эк относится к этому скептически. Поп-музыка — слишком широкое понятие: есть глубокие работы уровня Фрэнка Оушена, а есть безликий «фестивальный поп-мейнстрим», где имя автора уже сейчас не имеет значения.

Даг Эк считает, что автоматизация рутинных гармонических решений лишь освободит художников для новых поисков. Когда драм-машины решили проблему идеально ровного ритма, музыканты не бросили играть — они начали использовать этот жесткий метрономический каркас, чтобы смело ломать вокальный ритм и синкопировать поверх него. Как только технология делает что-то простое доступным, человечество тут же отправляется искать новую, более сложную вершину.

Главной целью (Holy Grail) для Magenta на ближайшие годы Даг Эк называет освоение длинной формы. Модели должны научиться создавать произведения, которые удерживают внимание и развивают мысль на протяжении минут, а не 20 секунд. Это позволит авторам делегировать ИИ глобальные структурные решения (например, моменты смены тональностей), концентрируясь на локальной текстуре звука и микротайминге — подобно легендарному пианисту Телониусу Монку (Thelonious Monk), чей рваный, хромающий стиль исполнения опередил свое время.

В финале встречи Даг Эк озвучил главный вызов для сообщества: индустрии необходимо создать условный «GarageBand для ИИ-арта». Технологии должны стать настолько доступными и высокоуровневыми, чтобы новому поколению творцов не требовалось проводить 4–5 лет за изучением Python, а ценность создателя снова определялась его вкусом, слухом и готовностью экспериментировать.