Деви Парикх о том, как алгоритмы помогают людям создавать «случайное творчество»

В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Деви Парикх, доцентом Школы интерактивных вычислений Georgia Tech и специалистом Facebook AI Research (FAIR). В центре внимания — концепция «случайного творчества», где ИИ выступает не как замена художника, а как катализатор вдохновения и партнер в итеративном процессе созидания.

🎓 Путь от архитектуры процессоров к визуальному разуму 0:04

Деви Парикх совмещает академическую карьеру в Georgia Tech в Атланте с исследовательской деятельностью в FAIR. По словам гостьи, её приход в сферу ИИ во многом был делом случая . Будучи студенткой третьего курса, она планировала заняться компьютерной архитектурой, но из-за ошибки в распределении попала в проект по машинному обучению (в то время называвшемуся «распознаванием образов»).

Переход в область компьютерного зрения произошёл на первом курсе аспирантуры под влиянием коллег. Парикх утверждает, что визуальный аспект работы с изображениями показался ей более интуитивным и доступным, чем анализ вторжений в компьютерных сетях, которым она занималась до этого . Последние несколько лет её основной фокус находился на стыке зрения и языка (VQA, подписи к изображениям), что естественным образом привело к изучению взаимодействия человека и ИИ в творческих задачах.

🎨 Философия творчества и роль ИИ 5:36

В преддверии своего выступления на воркшопе CVPR «Компьютерное зрение для моды, искусства и дизайна», Парикх сформулировала свой взгляд на то, что такое креативность в контексте технологий.

Гостья опирается на определение, согласно которому креативность — это любая новая идея, обладающая ценностью . Она выделяет два критических компонента:

Новизна (Novelty): Создание чего-то, что не существовало ранее. По мнению Парикх, новизна сама по себе недостаточна, так как случайный шум или бессвязный набор слов тоже новы, но бесполезны .
Ценность (Value): Полезность или эстетическая значимость результата. Парикх признает, что понятие ценности крайне субъективно, и исследовательское сообщество часто переносит споры о креативности именно в плоскость определения ценности .

Парикх полагает, что вопрос «может ли ИИ быть творческим сам по себе» вторичен. Её больше занимает вопрос, могут ли машины помочь людям быть более творческими, чем те были бы в одиночку . Она рассматривает это как командную работу, где ИИ может давать «зерно вдохновения», а человек — развивать его.

🖌️ Классификация творческих инструментов: от чертежа до каракулей 13:57

Парикх предлагает разделять творческие задачи на две категории по их целям:

Задачно-ориентированные (Task-driven): Конкретный результат, например, проектирование моста или сложной инженерной конструкции, где креативность — это способ решения проблемы .
Исследовательские (Casual Creators): Процесс ради процесса, аналогичный рисованию каракулей (doodling). Здесь человек просто исследует пространство возможностей, пытаясь наткнуться на что-то ценное .

Проект Casual Creator: ИИ как рекомендательная система вкуса

В рамках работы над «случайными творцами» Парикх исследовала инструменты для генеративного искусства, основанные на коде. Пользователь крутит параметры (цвета, кривизна линий), а алгоритм выдает геометрические паттерны.

В ходе экспериментов на Amazon Mechanical Turk команда собирала данные о парных предпочтениях пользователей . Цель заключалась в том, чтобы понять, существует ли корреляция между выбором цветовой палитры и предпочтением, например, толщины линий. Парикх утверждает, что система способна предсказывать будущие симпатии пользователя, что позволяет сузить пространство поиска и помочь человеку быстрее найти «тот самый» результат .

Нейросимволическое искусство

Еще один подход, обсуждаемый в статье, — объединение символьных алгоритмов (где правила заданы четко) и нейросетей (GAN) .

Символьный подход дает высокое качество и контроль.
Нейросетевой подход привносит интригующую странность и возможность плавных переходов (интерполяций в латентном пространстве).
По данным гостьи, люди в большинстве случаев предпочитают именно нейросимволические результаты, так как они сочетают узнаваемую структуру и необычную «нейронную» фактуру .

💃 Танец как порождение алгоритма 27:40

Одним из самых необычных проектов Парикх стала попытка научить машину находить танцевальные движения, синхронизированные с музыкой, без использования обучающих данных с реальными танцорами.

Метод: Алгоритм анализирует аудио и ищет автокорреляцию (повторяющиеся паттерны сходства) в музыкальных фичах .
Задача: Создать последовательность движений, автокорреляционная матрица которых максимально совпадает с музыкальной.
Визуализация: Парикх намеренно использовала предельно простых агентов с малым количеством состояний . Это может быть точка, меняющая размер, или «лиственный» паттерн, раскачивающийся в такт. По словам спикера, визуализация в виде «листьев» оказалась для людей гораздо более вдохновляющей, чем танец палочного человечка (stick figure), хотя за ними стояла одна и та же математическая модель .

🤝 Коллективное творчество и визуальные дневники 36:42

Парикх также изучает механизмы сотрудничества. В одном эксперименте исследовалось, как группа людей создает общие эскизы на холсте.

Были выявлены следующие закономерности:

Индивидуальный рисунок: Четкий, высокого качества, но часто предсказуемый и скучный .
Хаотичное сотрудничество: Люди рисуют по очереди без координации. Результат получается крайне необычным, но слишком шумным и бессвязным .
Сотрудничество с голосованием: Когда человек выбирает один из пяти предложенных вариантов развития холста перед тем, как добавить свой штрих. Это, по мнению Парикх, создает идеальный баланс: результат получается качественным (из-за фильтрации шума) и при этом неожиданным, так как в нем смешаны идеи разных авторов .

Последний упомянутый проект — Visual Journaling . Система на базе NLP анализирует записи в дневнике пользователя, выделяет ключевые темы (семья, работа, еда) и эмоции (всего около 18 типов). На основе этих данных ИИ генерирует абстрактную картину: форма соответствует теме, а цвета — настроению. Парикх считает, что такая визуализация превращает рутинное ведение дневника в создание личной галереи искусств, что повышает вовлеченность людей .