В рамках научного семинара Stanford CS547 по человеко-компьютерному взаимодействию (HCI) исследователь Макс Кремински представил доклад о моделировании, анализе и изменении траекторий пользователей в творческих пространствах проектирования. Рассматривая взаимодействие человека со специализированными ИИ-инструментами поддержки креативности (Creativity Support Tools, CST), докладчик продемонстрировал, как новые математические и визуальные методы помогают выявлять скрытые паттерны поведения создателей контента. Ключевой идеей выступления стала необходимость перехода от банальной количественной оценки результатов к проактивной поддержке автора в моменты творческого кризиса, когнитивных тупиков или чрезмерной гомогенизации идей ИИ-моделями.
🛠️ Пространство проектирования и концепция «творчества как открытия» 0:10
Макс Кремински, возглавляющий Лабораторию сторителлинга (Storytelling Lab) в Midjourney, объявил о постепенном сворачивании этого исследовательского подразделения в конце 2025 года ради перехода к продуктово-ориентированной работе. Команда лаборатории состоит из шести штатных и одного приглашённого исследователя. Сам спикер в июле 2026 года займёт пост профессора дизайн-технологий в Cornell Tech в Нью-Йорке. Его ключевой академический интерес лежит на стыке искусственного интеллекта и HCI в области систем поддержки креативности. Во время докторантуры в Калифорнийском университете в Санта-Круз Кремински фокусировался на игровом дизайне, интерактивном нарративном ИИ и доступных формах творчества для непрофессионалов.
В основе его текущего подхода лежит концепция представления артефактов (изображений, игр, стихов) как гигантского пространства возможных конфигураций. Творческий процесс пользователя моделируется как путь (траектория) через это пространство, содержащий точки схождения (конвергенции), расхождения (дивергенции), вдохновения и ментальных блоков.
В рамках этой парадигмы исследователь ставит перед собой два главных вопроса:
- Можно ли разработать эмпирические, масштабируемые и нередукционистские подходы к оценке творческих процессов под управлением компьютера?
- Можно ли использовать эти методы для создания вычислительных систем, которые полезно и проактивно вмешиваются в человеческий процесс созидания?
По мнению Кремински, нередукционистский подход критически важен, так как стандартное стремление измерить креативность «плоской цифрой» и заявить, что один объект лучше другого, в корне неверно. Вместо этого необходимо оценивать качественные характеристики процессов. Говоря о проактивности, спикер иронично упомянул Скрепыша (Clippy) из Microsoft Office как «призрак, который преследует всех разработчиков». По его мнению, эффективное вмешательство системы возможно только тогда, когда алгоритм точно распознаёт, находится ли пользователь в фазе поиска новых идей или уже пытается зафиксировать конкретное решение.
Для иллюстрации систем с так называемым «смешанным подходом» (mixed-initiative creative interfaces) Кремински привёл два примера из недавней практики:
- Germinate: Инструмент для казуального создания риторических игр, разработанный спикером во время PhD. Пользователь задаёт сущности (например, «друг» в виде эмодзи), настраивает параметры («уверенность», «депрессия») и правила изменения эмоций. Система на базе логического программирования в ограничениях (Answer Set Programming) генерирует набор играбельных мини-игр, соответствующих интенту.
- Meet the Ganimals: Проект З. Эпштейна и соавторов (2020 год) на базе генеративно-состязательных сетей (GAN). Коллектив пользователей скрещивал изображения странных существ в латентном пространстве, получая гибриды (например, на 45% щенок и на 50% золотая рыбка). Наиболее популярные существа «всплывали» наверх в общей экосистеме за счёт постоянного отбора человеком.
Как утверждает докладчик, в обоих случаях создание артефакта фактически приравнивается к его обнаружению (дискаверингу) внутри огромного пространства возможностей.
📊 От анализа выразительного диапазона к картам пользовательского опыта 8:12
Для оценки генеративных моделей без пользовательского интерфейса традиционно применяется метод анализа выразительного диапазона (Expressive Range Analysis, ERA), предложенный в районе 2010 года. Например, генератор уровней в стиле Super Mario оценивается по двум осям — линейности (прямота пути) и снисходительности (вероятность прохождения симулированным игроком). Итоговая тепловая карта визуализирует «цифровой отпечаток» генератора, показывая центр массы и крайние точки (аутлайеры).
Однако Кремински считает, что классический ERA полностью пасует, когда поверх модели появляется интерфейс взаимодействия с человеком. В таких co-creative системах возникает целый комплекс проблем:
- Интерфейс может искусственно блокировать доступ к интересным частям выразительного диапазона.
- Пространство может быть перенасыщено «мусорными» вариантами, из-за чего пользователь чувствует себя перегруженным.
- Алгоритм может иметь внутреннее смещение (bias) в сторону типичных артефактов, мешая автору уйти в сторону от центра массы.
- Рекомендательные интерфейсы (система лайков/дизлайков) часто заставляют пользователя слишком рано сходиться в узком углу диапазона, блокируя внешние альтернативы.
- В худшем случае интерфейс выдаёт случайные результаты, не позволяя автору зафиксировать (сконвергировать) найденную идею.
Поскольку пользователи редко способны объективно отрепортовать, чего именно им не показала система, Кремински разработал метод анализа покрытия выразительного диапазона (Expressive Range Coverage Analysis). Метод накладывает scatterplot-слой реально созданных людьми объектов поверх теоретической тепловой карты генератора.
Эксперимент был поставлен на разработанном спикером инструменте erasure-поэзии Redactionist. Пользователь загружает исходный текст, NLP-модель на базе ограничений предлагает варианты, а человек кликает на слова, оставляя их или скрывая. В рамках теста группа людей создала по 10 стихотворений из одного текста.
Overlay-анализ выявил удивительные паттерны:
- Персональные «домашние регионы»: Авторы (обозначенные разными цветами) тяготели к разным частям диапазона. «Красный» пользователь стабильно извлекал слова из одной и той же позиции текста, а «синий» уходил в экстремальные аутлайеры.
- Противодействие ИИ-смещению: Вопреки тому, что генератор имел плотный центр массы (слова, которые он сочетал чаще всего), реальные люди активно уходили на периферию, создавая максимально странные, «дивергентные» с точки зрения алгоритма стихи.
- Осознанные траектории: Анализ хронологического порядка создания стихов показал, что пользователи начинали вблизи центра массы алгоритма, но затем совершали целенаправленный дрейф в сторону аномальных зон, закрепляясь там к 10-й попытке.
- Игровое прощупывание границ: Некоторые авторы вели себя как «любопытные пользователи», воспринимая CST как игрушку для тестирования лимитов. Стихотворение участника под кодом P4 оказалось настолько экстремальным по метрикам, что исследователям пришлось вручную менять границы графика, чтобы отобразить эту точку.
🗺️ Бесконечные пространства и рождение нечёткой линкографии 17:58
Хотя метод покрытия отлично работал в пространстве erasure-поэзии (где объём вариантов измерялся тысячами), он оказывается бесполезным в современных open-ended системах генеративного ИИ со свободным текстовым или визуальным вводом. Систематически перебрать и нанести на карту все возможные комбинации там физически невозможно.
В качестве примера такой сложной среды Кремински продемонстрировал Patchwork — разработанный в Midjourney холст для ИИ-поддерживаемого миростроительства (worldbuilding canvas). На этом бесконечном холсте пользователи собирают лор-буки, концепты персонажей (например, «цветок опасности», преподнесённый в качестве подарка в сеттинге придворных интриг), пишут тексты от руки, импортируют графику и используют генерацию, пока ИИ следит за консистентностью лиц персонажей и общего стиля. Перебрать миллиарды вариантов Patchwork-холстов невозможно.
Чтобы обойти это ограничение, команда Макса обратилась к методу линкографии (linkography), созданному в 1990-х годах для анализа совместной работы архитекторов. В классической линкографии живой аннотатор сидит в комнате, стенографирует действия проектировщиков, делит процесс на дискретные «дизайнерские шаги» (design moves) и вручную прорисовывает связи (линки) между ними. Метод позволяет видеть паттерны:
- Одиночные шаги (orphan moves): Игнорируемые отступления от темы (например, предложение добавить фонтан, которое группа пропустила мимо ушей).
- Блоки (chunks): Группы взаимосвязанных идей.
- Пилообразные паттерны (sawtooth): Стремительный пинг-понг между двумя конкретными деталями без оглядки на прошлый контекст.
Главный минус ручной линкографии — чудовищная дороговизна масштабирования; исследования в области HCI обычно ограничивались парой десятков карт, размеченных силами студентов.
Команда Кремински автоматизировала этот процесс, создав нечёткую линкографию (fuzzy linkography). Лог действий пользователя автоматически прогоняется через ИИ-модель эмбеддингов, которая вычисляет семантическое сходство между шагами (например, текстовыми промптами) и строит граф связей в виде линий разной степени прозрачности. Спикер продемонстрировал это на собственном текстовом потоке сознания: от слова «Hello» через «Dog», «Zebra», «Hello Kitty» и «Video Stream» к финальной концепции «Hello Kitty TV Show», которая триумфально связала воедино линии животных и медиа.
Применив нечёткую линкографию к анализу 6 424 последовательностей промптов реальных пользователей Patchwork за двухнедельный период в конце 2024 года, исследователи зафиксировали три фундаментальных паттерна:
- Сети уточнения (refinement webs): Серии мелких, инкрементальных изменений одного промпта («дубли»), когда автор крутит цифровые кости в погоне за идеальным рендером.
- Зигзаг любопытства (curiosity zigzag): Чередование работы над центральной темой с резкими единичными отступлениями, которые никогда не возвращаются в основной лор.
- Конвергентный зигзаг (hybrid pattern): Самый харизматичный, по мнению спикера, паттерн. Пользователь параллельно развивал две разные ветки — создавал образ «милого старика» и образ «человека с головой клеща». Одновременно в отдельном потоке он прощупывал визуальные стили без привязки к персонажам. Затем система зафиксировала их слияние в сложнейшую сеть уточнений, завершившуюся идеальным изображением гибрида, после чего автор отошёл от клавиатуры на 30 минут, полностью удовлетворённый результатом.
Временные паттерны также разделили пользователей на две категории: одни работали короткими сессиями, полностью меняя тему после перерыва, другие — разворачивали эпические долгосрочные проекты (например, фэнтези-мир в стиле «Аватара»), сохраняя связность графа сквозь 15 временных пауз.
🤖 Ловушка гомогенизации: как ИИ лишает человека инициативы 31:01
Кластеризация линкографов с помощью алгоритма k-means ($k=5$) позволила выявить архетипы проектировщиков, включая «одержимых пользователей», штампующих идентичные промпты с минимальной семантической вариацией. Это натолкнуло команду на исследование феномена гомогенизации мышления под воздействием больших языковых моделей (на примере ChatGPT).
Исследователи провели эксперимент, где сравнивали ChatGPT и аналоговые карточки творческих подсказок Oblique Strategies, созданные музыкантом Брайаном Ино и Питером Шмидтом в 1970-х годах. Карточки Ино содержат абстрактные, порой деструктивные призывы в духе «Уничтожь самую важную вещь». Испытуемым давали творческие задачи: придумать улучшения для плюшевого мишки или описать последствия внезапного отключения гравитации.
Результаты оказались тревожными. Как продемонстрировал семантический анализ, идеи пользователей ChatGPT оказались беспрецедентно гомогенными (похожими друг на друга в группе) по сравнению с теми, кто использовал карточки Брайана Ино. При этом ChatGPT формально побеждал по классическим метрикам креативности: гибкости (количеству охваченных категорий), беглости (общему числу сгенерированных идей) и детализации. Но на уровне группы ИИ приводил к одинаковости мышления.
Чтобы понять глубинную структуру этого процесса, учёные применили многоактную нечёткую линкографию (multi-actor fuzzy linkography), размечая ходы человека красным цветом, а ответы машины — синим.
Визуальный анализ выявил специфические эффекты взаимодействия:
- ИИ-осечки (misfires): На графах чётко видны моменты, когда человек просит выдать пачку вариантов, ChatGPT генерирует плотный синий узел из 7–8 пунктов, но пользователь полностью их игнорирует и идёт дальше, не зацепив ни одной мысли.
- Нарушение принципа очерёдности (turn-taking): В нормальном человеческом диалоге реплики симметричны. ИИ же перехватывает руль и вываливает огромные списки из 10 буллет-поинтов, буквально подавляя пользователя объёмом текста.
- Уход в кураторский режим (curationist mode): Постепенно человек устаёт придумывать уникальные вводные и переключается исключительно на фильтрацию, компиляцию и копипаст машинного выхлопа. В конце сессий авторы лишь «вычищали» ИИ-текст, выдавая его за свой.
- Одностороннее влияние: Количественный анализ плотности обратных связей доказал, что машина крайне неохотно адаптируется под уникальные идеи человека (плотность связей «машина $\rightarrow$ человек» в два раза ниже, чем «человек $\rightarrow$ машина»). ИИ гнёт свою линию, увлекая за собой автора.
Как отмечает Макс Кремински, в рамках устных интервью пользователи бурно выражали недовольство банальностью ответов ИИ, но они были категорически не заинтересованы вносить эти рамки и раздражение в сам чат-текст. Авторам было банально лень тратить силы на кодирование своих требований в диалоговое окно, либо они не верили в способность модели их понять, предпочитая просто раз за разом нажимать кнопку «Try Again».
🚀 Проактивный дизайн будущего и выход за рамки медиа 41:07
Обнаруженные паттерны открывают дорогу для систем нового поколения. Отслеживая плотность графа в реальном времени, CST-инструмент может заметить падение творческого импульса (когда человек зацикливается на повторах) и проактивно вмешаться. Вместо навязчивых советов ИИ должен начать «вытягивать интент» (intent elicitation), задавая тонкие наводящие вопросы и заставляя автора сформулировать то, что его не устраивает, избегая гомогенизации.
Методология нечёткой линкографии универсальна и работает в любом домене, где есть качественная модель эмбеддингов: в аудио, игровом дизайне или проектировании интерфейсов (например, через UI CLIP). В качестве шутливого эксперимента авторы прогнали через этот алгоритм названия статей профилей учёных в Google Scholar. Система наглядно визуализировала «форму карьеры»: у одного она выявила паттерн «бродячего постдока» (хаотичные прыжки по несвязанным темам), у другого — «ранний карьерный разворот» из-за закрытия лаборатории и вынужденного ухода в другую дисциплину.
Другой масштабный проект команды, получивший название Artographer, материализует саму идею исследования семантических пространств. Учёные взяли CLIP-эмбеддинги тысяч экспонатов из музейных баз данных и отобразили их на интерактивной физической карте с помощью диаграммы Вороного. Вводя слова (например, «cat»), пользователь физически перемещается по карте к Louis Wain-кошкам, а промпт «ancient mosaic art» переносит его в кластер древних мозаик.
Изучая траектории перемещения людей по Artographer, команда столкнулась с поразительным психологическим феноменом: поскольку карта была пространственной и имела физические границы, люди подсознательно стремились к краям. Около 15% всех сохранений картинок приходилось на самую крайнюю внешнюю кромку карты. По мнению исследователей, авторы буквально физически штурмовали границы интерфейса, пытаясь отыскать экстремальные аутлайеры за пределами медианного распределения модели.
Исходя из этого, Кремински выдвинул парадоксальный тезис для ИИ-разработчиков будущего: модели должны генерировать более «грязные», незавершённые или явно деформированные результаты. В качестве примера он привёл поэтический инструмент Phraselet, который жестко ограничивал выдачу ИИ пятью токенами (словами) за раз. Вместо полированных абзацев прозы система выдавала сотни обрывочных фраз. Это послужило мощным принудительным стимулом (forcing function) для авторов: они прекращали лениво кураторствовать, включали собственное мышление и начинали активно заниматься «ремонтными работами», склеивая и дописывая тексты самостоятельно.
💬 Ответы на вопросы: природа серендипити и границы метаданных 47:01
Вопрос: Что именно люди ценят в процессе исследования ИИ-пространств проектирования, если они там так часто сталкиваются с трудностями?
Макс Кремински: Люди невероятно ценят серендипити — эффект случайных счастливых находок. Художники, работавшие в визуальных медиа до бума генеративного ИИ, признавались, что их восхищала «глючность» (glitchiness) и странность ранних машин, их способность выйти за рамки человеческих предрассудков. В своей работе «Lost Poetry» я описываю это как состояние, когда ИИ продуктивно «теряется» в смыслах — он не понимает, где совершает ошибку с точки зрения человека, но эта ошибка выталкивает самого человека из шаблонов. Как только появляется распределение вероятностей, истинные художники сразу устремляются к его краям.
Вопрос: К какими демографическим группам принадлежали ваши пользователи и заметили ли вы субтренды внутри этих групп?
Макс Кремински: Скажу честно: данные Patchwork мы анализировали ретроспективно и почти ничего не знали о пользователях лично, кроме их промптов. Судя по логам, это были тысячи людей, занимавшихся миростроительством, подготовкой кампаний для настольных игр типа Dungeons & Dragons или написанием фэнтези-романов. А вот в исследовании гомогенизации ChatGPT участвовали работники с Mechanical Turk и студенты. У них не было глубокой внутренней мотивации к качественному выполнению этих задач. Поэтому к тезису о гомогенизации стоит относиться с долей скепсиса: в реальности никто не сидит и не обсуждает с ChatGPT часами, как улучшить плюшевого мишку. Если мы дадим эти инструменты людям с разным типом мотивации (исследовательским против продуктового, где цель — нагенерить картинок как можно быстрее), графики линкографии зафиксируют абсолютно полярные стили.
Вопрос: Когерентность и схожесть ответов ИИ — это следствие RLHF-настройки (обучения с подкреплением на основе отзывов людей), заставляющей модель выдавать безопасные усреднённые результаты? Изменялось ли что-то, если люди использовали продвинутый промптинг?
Макс Кремински: Что самое интересное — поведение графа оставалось неизменным, независимо от хитрости промптов. Среди участников были «прокачанные» пользователи, которые применяли ролевой промптинг (persona prompting), заставляли модель имитировать специфический голос, накладывали жесткие лексические ограничения. Но на дистанции сдвиг траектории к гомогенности выглядел одинаково. Наш эксперимент шёл на версии ChatGPT 3.5, которая сильно подвержена коллапсу мод (mode-collapse). Да, RLHF буквально создано для того, чтобы схлопывать распределение к безопасной норме. Если бы модель выдавала не готовые решения, а нечто смутное и незавершённое вроде карточек Брайана Ино, человек сохранял бы лидерство. Сейчас в обществе путают ограничения самой языковой модели, проблемы её fine-tuning настройки и интерфейсные ограничения обычного чата. Это комплексный эффект, который нам ещё предстоит распутать.
Вопрос: Замечали ли вы паттерн, когда пользователь использует ИИ от противного? То есть смотрит на результат, понимает, что это «максимально вероятный и банальный ответ», и намеренно идёт в противоположную сторону?
Макс Кремински: В нашем конкретном датасете мы такого почти не увидели. Пользователи преимущественно отбрасывали идеи ИИ неявно — просто игнорировали их, собирая и массируя в финальном ответе комбинации из тех крупиц, что им понравились. Случаев осознанного движения «от противного» зафиксировано не было. Возможно, у людей тогда ещё не сформировалась такая ментальная практика, либо сегодняшние пользователи уже лучше понимают вероятностную природу ИИ и начинают использовать его как маркер банальности, от которого надо отталкиваться. Это отличный вопрос для будущих тестов.
Вопрос: Как применить временные медиа-форматы, например, аудио или длинные нарративы, к нечёткой линкографии, ведь их сложнее дробить на шаги?
Макс Кремински: Это огромный открытый вопрос. Если мы возьмём длинный текст, то при стандартных методах эмбеддингов все важные временные нюансы просто «вымываются». Мы сейчас тестируем систему Elsewise, которая анализирует логи сессий в текстовых ролевых играх на базе LLM. Мы пытаемся визуализировать, как игровые моменты перемещаются между специфическими «корзинами» (bins) в семантическом пространстве по мере развития сюжета. Но это всё ещё чертовски сложная визуальная и математическая проблема, адекватного решения для которой пока нет.