# Деви Парикх о том, как алгоритмы помогают людям создавать «случайное творчество»

Источник: https://www.youtube.com/watch?v=m-lZNfyGwe0
Канал: The TWIML AI Podcast
Опубликовано: 17.08.2020

---

В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Деви Парикх, доцентом Школы интерактивных вычислений Georgia Tech и специалистом Facebook AI Research (FAIR). В центре внимания — концепция «случайного творчества», где ИИ выступает не как замена художника, а как катализатор вдохновения и партнер в итеративном процессе созидания.

## 🎓 Путь от архитектуры процессоров к визуальному разуму
[[JUMP:00:04]]

Деви Парикх совмещает академическую карьеру в Georgia Tech в Атланте с исследовательской деятельностью в FAIR. По словам гостьи, её приход в сферу ИИ во многом был делом случая [00:55]. Будучи студенткой третьего курса, она планировала заняться компьютерной архитектурой, но из-за ошибки в распределении попала в проект по машинному обучению (в то время называвшемуся «распознаванием образов»).

Переход в область компьютерного зрения произошёл на первом курсе аспирантуры под влиянием коллег. Парикх утверждает, что визуальный аспект работы с изображениями показался ей более интуитивным и доступным, чем анализ вторжений в компьютерных сетях, которым она занималась до этого [01:58]. Последние несколько лет её основной фокус находился на стыке зрения и языка (VQA, подписи к изображениям), что естественным образом привело к изучению взаимодействия человека и ИИ в творческих задачах.

## 🎨 Философия творчества и роль ИИ
[[JUMP:05:36]]

В преддверии своего выступления на воркшопе CVPR «Компьютерное зрение для моды, искусства и дизайна», Парикх сформулировала свой взгляд на то, что такое креативность в контексте технологий.

Гостья опирается на определение, согласно которому креативность — это любая новая идея, обладающая ценностью [06:56]. Она выделяет два критических компонента:

1.  **Новизна (Novelty):** Создание чего-то, что не существовало ранее. По мнению Парикх, новизна сама по себе недостаточна, так как случайный шум или бессвязный набор слов тоже новы, но бесполезны [08:18].
2.  **Ценность (Value):** Полезность или эстетическая значимость результата. Парикх признает, что понятие ценности крайне субъективно, и исследовательское сообщество часто переносит споры о креативности именно в плоскость определения ценности [08:44].

Парикх полагает, что вопрос «может ли ИИ быть творческим сам по себе» вторичен. Её больше занимает вопрос, могут ли машины помочь людям быть более творческими, чем те были бы в одиночку [11:49]. Она рассматривает это как командную работу, где ИИ может давать «зерно вдохновения», а человек — развивать его.

## 🖌️ Классификация творческих инструментов: от чертежа до каракулей
[[JUMP:13:57]]

Парикх предлагает разделять творческие задачи на две категории по их целям:

*   **Задачно-ориентированные (Task-driven):** Конкретный результат, например, проектирование моста или сложной инженерной конструкции, где креативность — это способ решения проблемы [14:36].
*   **Исследовательские (Casual Creators):** Процесс ради процесса, аналогичный рисованию каракулей (doodling). Здесь человек просто исследует пространство возможностей, пытаясь наткнуться на что-то ценное [14:50].

### Проект Casual Creator: ИИ как рекомендательная система вкуса
В рамках работы над «случайными творцами» Парикх исследовала инструменты для генеративного искусства, основанные на коде. Пользователь крутит параметры (цвета, кривизна линий), а алгоритм выдает геометрические паттерны.

В ходе экспериментов на Amazon Mechanical Turk команда собирала данные о парных предпочтениях пользователей [20:18]. Цель заключалась в том, чтобы понять, существует ли корреляция между выбором цветовой палитры и предпочтением, например, толщины линий. Парикх утверждает, что система способна предсказывать будущие симпатии пользователя, что позволяет сузить пространство поиска и помочь человеку быстрее найти «тот самый» результат [19:09].

### Нейросимволическое искусство
Еще один подход, обсуждаемый в статье, — объединение символьных алгоритмов (где правила заданы четко) и нейросетей (GAN) [23:28].

*   Символьный подход дает высокое качество и контроль.
*   Нейросетевой подход привносит интригующую странность и возможность плавных переходов (интерполяций в латентном пространстве).
*   По данным гостьи, люди в большинстве случаев предпочитают именно нейросимволические результаты, так как они сочетают узнаваемую структуру и необычную «нейронную» фактуру [25:52].

## 💃 Танец как порождение алгоритма
[[JUMP:27:40]]

Одним из самых необычных проектов Парикх стала попытка научить машину находить танцевальные движения, синхронизированные с музыкой, без использования обучающих данных с реальными танцорами.

*   **Метод:** Алгоритм анализирует аудио и ищет автокорреляцию (повторяющиеся паттерны сходства) в музыкальных фичах [36:03].
*   **Задача:** Создать последовательность движений, автокорреляционная матрица которых максимально совпадает с музыкальной.
*   **Визуализация:** Парикх намеренно использовала предельно простых агентов с малым количеством состояний [29:16]. Это может быть точка, меняющая размер, или «лиственный» паттерн, раскачивающийся в такт. По словам спикера, визуализация в виде «листьев» оказалась для людей гораздо более вдохновляющей, чем танец палочного человечка (stick figure), хотя за ними стояла одна и та же математическая модель [31:15].

## 🤝 Коллективное творчество и визуальные дневники
[[JUMP:36:42]]

Парикх также изучает механизмы сотрудничества. В одном эксперименте исследовалось, как группа людей создает общие эскизы на холсте.

Были выявлены следующие закономерности:

1.  **Индивидуальный рисунок:** Четкий, высокого качества, но часто предсказуемый и скучный [37:49].
2.  **Хаотичное сотрудничество:** Люди рисуют по очереди без координации. Результат получается крайне необычным, но слишком шумным и бессвязным [38:15].
3.  **Сотрудничество с голосованием:** Когда человек выбирает один из пяти предложенных вариантов развития холста перед тем, как добавить свой штрих. Это, по мнению Парикх, создает идеальный баланс: результат получается качественным (из-за фильтрации шума) и при этом неожиданным, так как в нем смешаны идеи разных авторов [39:45].

Последний упомянутый проект — **Visual Journaling** [42:08]. Система на базе NLP анализирует записи в дневнике пользователя, выделяет ключевые темы (семья, работа, еда) и эмоции (всего около 18 типов). На основе этих данных ИИ генерирует абстрактную картину: форма соответствует теме, а цвета — настроению. Парикх считает, что такая визуализация превращает рутинное ведение дневника в создание личной галереи искусств, что повышает вовлеченность людей [44:20].