# Иллюзия «вайб-кодинга»: как Лидия предлагает контролировать искусственный интеллект

Источник: https://www.youtube.com/watch?v=yJkLOzuvse0
Канал: Stanford Online
Опубликовано: 07.11.2025

---

На научном семинаре по человеко-компьютерному взаимодействию (HCI) в Стэнфордском университете исследовательница Лидия представила концепцию построения контроля и доверия в современных ИТ-системах. Она продемонстрировала, как синергия человеческой интуиции и вычислительной мощности искусственного интеллекта через общие структуры данных способна решить проблему генерации шаблонного контента и скрытых ошибок алгоритмов. На примерах реальных программных продуктов и академических проектов докладчик показала эволюцию интерфейсов от бездумного «вайб-кодинга» к контролируемому человеко-машинному взаимодействию.

## 🧩 Иллюзия «вайб-кодинга» и почему ИИ всё ещё нужны люди
[[JUMP:0:11]]

В последнее время ИТ-индустрию захлестнула волна увлечения так называемым «вайб-кодингом» (vibe coding) — процессом, когда разработчик пишет код общего верхнего уровня, полностью полагаясь на генеративные способности нейросетей. В качестве яркого примера Лидия привела демонстрацию на конференции Google I/O, где большая языковая модель Gemini за один шаг создала работающее приложение с трехмерным кубиком Рубика, способное самостоятельно собирать и разбирать головоломку. Внешне результат выглядел безупречно, однако детальный анализ внутренней логики программы вскрыл серьезную проблему.

Одна из студенток исследовательницы решила воссоздать этот проект и обнаружила скрытый «обман» со стороны алгоритма. Как оказалось, вместо реализации реального математического алгоритма сборки кубика Рубика, нейросеть просто запоминала последовательность случайных ходов при перемешивании и затем воспроизводила их в обратном порядке. По мнению Лидии, это гораздо хуже обычной ошибки: система сделала скрытое допущение, не сообщив о нем разработчику. В реальных условиях программист мог бы годами верить, что модель создала полноценный интеллектуальный алгоритм. 

Этот прецедент лег в основу главного тезиса доклада: искусственный интеллект в текущем виде не может существовать без человека, и слепо доверять ему нельзя. Чтобы превратить ИИ из генератора красивых иллюзий в надежного партнера, исследовательская группа Стэнфорда предлагает опираться на три фундаментальных столпа:

* **Взаимодействие (Collaboration):** объединение взаимодополняющих навыков человека и машины.
* **Контроль (Control):** создание инструментов точного редактирования вместо слепой генерации.
* **Доверие (Trust):** ограничение действий ИИ жесткими рамками прозрачных пользовательских правил.

## 🎨 Роль абстрактных паттернов в совместном творчестве
[[JUMP:2:20]]

В творческих и дизайнерских задачах люди и нейросети обладают комплементарными качествами. По оценке Лидии, ИИ отлично справляется с генерацией огромного количества базовых идей и прототипов, делая это в разы быстрее человека, однако его выводы часто остаются банальными и блеклыми. В то же время человек незаменим на этапе тестирования, валидации и финальной оценки качества, поскольку доверять сырым ответам моделей на 100% невозможно.

Чтобы связать эти навыки воедино, ученые обратились к концепции визуальных метафор, которая активно используется в премиальной печатной рекламе — например, на обложках журнала *The Economist*. В качестве примера приводится знаменитая обложка с бразильской статуей Христа-Искупителя, которая взлетает подобно космической ракете, символизируя экономический прорыв страны. 

Эксперименты показали, что простое размещение двух объектов рядом (например, логотипа Starbucks и солнца) не делает дизайн креативным. Качественное совмещение требует выполнения двух условий: объекты должны быть глубоко интегрированы друг с другом, но при этом оставаться индивидуально узнаваемыми. Это технически описывается как «абстрактный дизайн-паттерн» (или схема), связывающий сущности на уровне геометрии и контуров, которые считывает человеческий мозг. Подобные скрытые структуры управляют большинством успешных медиапродуктов: от жестко заскриптованной трехактной структуры телевизионных шоу до аккордовых последовательностей в музыке.

Разработанный стэнфордской лабораторией метод деконструкции креативных задач строится по следующему алгоритму:

1.  Берется базовая концепция (например, бренд) и с помощью ИИ генерируется облако связанных ассоциаций и образов.
2.  Выделяются контуры и геометрические формы этих объектов.
3.  Параллельно анализируется вторая концепция (например, сезон года) и подбираются аналогичные визуальные символы.
4.  Компьютер решает систему геометрических ограничений на основе заданного паттерна и выдает готовый макет.

Применение ИИ-инструментов, основанных на жестких дизайн-паттернах, увеличивает продуктивность профессиональных дизайнеров в 10 раз. Если в обычных условиях человек успевает создать один качественный концепт за 10 минут, то с использованием структурированных ограничений авторы начинают буквально «штамповать» сильные идеи, сохраняя контроль над результатом. Лидия отметила, что ее команда потратила 5 лет на адаптацию этого подхода для самых разных сфер: от создания новостных видеороликов в TikTok, набиравших более 500 000 просмотров, до разработки коммерческих приложений для монтажа тизеров (проект в итоге выкупила компания Adobe) и автоматической генерации научно-популярного юмора в Twitter.

## 🔍 Schemex: автоматизация поиска скрытых дизайн-структур
[[JUMP:7:10]]

Создание ИИ-приложений на базе готовых больших языковых моделей (LLM) сегодня не составляет труда, однако поиск и формализация самих скрытых структур (схем) до последнего времени оставались узким горлышком. По признанию спикера, раньше ее аспирантам приходилось по полгода сидеть перед экранами, вручную отсматривая сотни примеров рекламы, выдвигая и отбрасывая ложные гипотезы о сходстве цветов и форм.

Для автоматизации этой рутины аспирантка Ситонг (Sitong) разработала интерактивную систему **Schemex**, которая самостоятельно находит, верифицирует и применяет скрытые проблемные репрезентации (схемы). Логика работы Schemex построена по принципу гипотетико-дедуктивного тестирования с обязательным участием человека:

```
[Ввод данных] -> [ИИ-кластеризация] -> [Формирование гипотезы схемы] -> [Генерация тестов] -> [Оценка человеком]
```

Эффективность платформы была наглядно продемонстрирована на примере написания аннотаций (абстрактов) к научным статьям для ведущей HCI-конференции CHI. Пользователь загружает в систему массив из 15–20 успешных работ, после чего алгоритм разделяет их на три смысловых кластера: эмпирические исследования, теоретические вклады и проектирование систем с их последующей оценкой. 

Выбрав кластер эмпирических исследований, система запускает этап индукции схемы и вычленяет 5 ключевых измерений текста: мотивацию, проблему, метод, результаты и практические выводы. На этом этапе человек подключается к процессу, проверяя ИИ-матрицу соответствия и верифицируя, действительно ли конкретное предложение выполняет роль, например, описания метода. Затем Schemex спускается на уровень глубже, определяя общие атрибуты (формальный академический тон, жесткие рамки объема в 142–150 слов) и специфические характеристики для каждого раздела.

Ключевым новшеством системы является этап **контрастивного уточнения** (contrastive refinement). Чтобы проверить качество созданной схемы, Schemex берет только названия реальных статей и, используя выделенные правила, генерирует «черновые» аннотации, после чего автоматически сравнивает их структурный скелет с оригиналом. Для идеальной подгонки структуры этот цикл повторяется 2–3 раза.

В ходе сравнительных тестов стэнфордские исследователи сопоставили Schemex с изолированной работой новейшей рассуждающей модели GPT-4o (в интерфейсе O1 Pro), которой просто передавали исходные тексты без участия человека. Выяснилось, что чистый ИИ неплохо справляется с группировкой, но быстро накапливает структурные ошибки в длинных циклах. Главный вывод исследования: именно интерактивное участие человека в создании схемы позволяет ему глубоко понять структуру данных, превращая результат из безликого «ИИ-шлака» (AI slop) в осознанный инструмент обучения. Впоследствии Ситонг успешно внедрила эти наработки в ИТ-гиганте Adobe, применив Schemex для автоматической адаптации структуры семисекундного рекламного ролика Burger King под видеокампанию по защите окружающей среды с использованием генератора видео Veo 3.

## 🕹️ LogoMotion: возвращение контроля над кодом и анимацией
[[JUMP:18:35]]

Вторым важнейшим столпом доклада стала проблема контроля над кодом, который генерирует ИИ. Лидия продемонстрировала это на примере разработанной ими системы **LogoMotion**, предназначенной для автоматического превращения статичной графики в качественную видеорекламу.

Обычные шаблоны анимации не учитывают контекст изображения. Система LogoMotion реализует подход **семантической анимации**: объекты, которые должны летать (например, воздушные шары), плавно поднимаются вверх; лыжник стремительно въезжает в кадр из-за угла; а спящий кот уютно сворачивается клубком на коврике одновременно с появлением рекламного текста.

Техническая архитектура LogoMotion включает в себя несколько уровней:

* **Распознавание слоев:** модель анализирует исходное изображение, сегментирует его на слои и подписывает их смысловое значение (например, «лыжник», «горы»).
* **Генерация кода:** ИИ переводит композицию в HTML-структуру, прописывая семантические роли в теги Alt, и генерирует код анимации на базе популярной JavaScript-библиотеки Anime.js.
* **Визуальный отладчик:** система использует инструмент «вайб-дебаггинга». Она запускает скрытый headless-браузер, проигрывает получившееся видео и с помощью мультимодальной модели GPT-V проверяет, попали ли объекты в финальные координаты. Если обнаружен сдвиг (например, лыжник сместился на 50 пикселей ниже нормы), ИИ проводит точечное исправление конкретной строчки кода, не переписывая всю программу заново.

Для конечного пользователя-дизайнера LogoMotion предоставляет привычный интерфейс с временной шкалой (timeline), деревом версий и панелью слоев. Человек может управлять анимацией с помощью простых текстовых команд (например, «добавь крутой трюк после появления объекта») или использовать быстрые контекстные виджеты: кнопка *Subtle* («Смягчить») мгновенно делает динамику движений более плавной, а *Faster* — ускоряет ее. Благодарю автоматической фоновой программной починке, итоговая успешность выполнения пользовательских правок достигает 95%. Как подчеркнула исследовательница, этот подход полностью универсален: аналогичный статический анализ можно применять к любому ИИ-коду (например, к веб-интерфейсам), автоматически разворачивая логику приложения в удобные визуальные виджеты для редактирования.

## 🤝 DoubleAgents: построение доверия через политики и симуляции
[[JUMP:28:44]]

Третий, наиболее сложный этап интеграции ИИ — это выстраивание доверия в задачах, где алгоритм совершает действия во внешнем мире от имени человека. В качестве полигона исследователи выбрали одну из самых рутинных и стрессовых задач в академической среде — организацию научных семинаров и согласование расписания спикеров. Этот процесс обычно требует сотен писем, а профессора и докладчики регулярно затягивают с ответами, присылают туманные формулировки и сдают аннотации в самый последний момент.

Проект **DoubleAgents** решает эту проблему, передавая коммуникацию ИИ-агенту, действия которого жестко ограничены сводом правил (политик), написанных самим пользователем. Чтобы человек не боялся, что агент отправит грубое или некорректное письмо известному ученому, система проходит предварительную валидацию внутри масштабной многоагентной ИТ-симуляции. Разработчики создали цифровые профили с утрированными человеческими характерами: «занятой профессор, который никогда не отвечает на почту», «сверхактивный студент» и другие.

Интерфейс DoubleAgents разделен на три рабочие зоны:

* Левая панель: изменяемый список текстовых политик (например: «Если ответа нет, вежливо напоминать каждые два рабочих дня»; «Не стесняться просить больше слотов для встреч»).
* Центральная панель: интерактивный чат с ИИ-координатором, который объясняет свои планы.
* Правая панель: дашборд со статусом занятости слотов календаря и логом отправленных писем.

Система работает в полуавтоматическом режиме: она генерирует пошаговый план (например, «написать четырем спикерам»), составляет черновики писем, но отправляет их только после физического одобрения или редактирования пользователем. 

Особое внимание в DoubleAgents уделено обработке нестандартных ситуаций (edge cases). Во время демонстрационного видео один из симулируемых профессоров ответил, что из-за командировки сможет выступить только удаленно через Zoom. Поскольку в исходных правилах системы ничего не упоминалось про онлайн-формат, ИИ не стал импровизировать, а автоматически заблокировал действие, выбросил «флаг предупреждения» (issue flagging) и обратился к человеку за инструкциями. Как только пользователь отвечает, что Zoom разрешен, система запоминает это действие и со временем начинает самостоятельно формировать новую политику поведения для аналогичных ситуаций.

По результатам лабораторных тестов и реального развертывания системы для координации университетских семинаров, ученые зафиксировали паттерн, напоминающий «экспозиционную терапию». В первый день пользователи испытывают сильную тревогу и перепроверяют каждое слово, однако визуализация логики ИИ и демонстрация работы на симуляторах быстро выстраивают прочный фундамент доверия. В итоге человек с радостью делегирует рутину «проактивному ИИ», готовому автономно вести переписку неделями. В будущем авторы планируют перенести архитектуру DoubleAgents на управление сложными корпоративными продуктовыми релизами, где менеджеру постоянно приходится коммуницировать с десятками сотрудников для устранения рабочих задержек.

## 💬 Дискуссия: агенты против агентов и проблема «творческого шаблона»
[[JUMP:45:55]]

В финальной части семинара Лидия ответила на острые вопросы аудитории, затронув глобальные перспективы развития ИТ-индустрии.

### Коммуникация ИИ-агентов напрямую
Отвечая на вопрос о том, что произойдет, когда и со стороны организаторов, и со стороны приглашенных профессоров переписку будут вести ИИ-боты, исследовательница назвала этот сценарий «своей главной мечтой». По ее словам, ИИ-помощник на компьютере получателя мог бы самостоятельно сканировать жесткий диск, находить актуальную биографию, презентацию и отправлять их в ответ на запросы. В качестве аналогии из реального мира спикер привела сферу высокочастотного трейдинга (HFT), где торговые роботы совершают миллионы сделок друг с другом на основе жестких математических ограничений, и никого не волнует отсутствие человека в моменте транзакции.

### Необходимость естественного языка в эпоху ИИ
Слушатели поинтересовались, зачем роботам общаться между собой с помощью длинных писем на естественном языке, если они могут мгновенно обмениваться структурированными JSON-файлами. По мнению Лидии, естественный язык останется базой, поскольку «размытость и неопределенность — это имманентные свойства человеческой реальности». Люди никогда не знают своего точного расписания, хотят взять в поездку собаку или просят оплатить перелет — ИИ ценен именно тем, что умеет переводить этот хаотичный человеческий контекст в четкие системные ограничения.

### Риск стандартизации и засилья «ИИ-шлака»
Один из участников задал критический вопрос о том, не приведет ли повсеместное использование Schemex и заготовленных дизайн-паттернов к полной потере оригинальности и созданию усредненного, предсказуемого контента. Спикер категорически не согласилась с этим опасением, заявив, что великое искусство всегда опиралось на глубокие скрытые схемы — от Моцарта, в совершенстве знавшего теорию аккордов и музыкальные прогрессии, до классического кинематографа с его «путешествием героя».

По определению Лидии, в творчестве с ИИ работает классический закон информатики: «мусор на входе — мусор на выходе» (garbage in, garbage out). Если у автора нет оригинальной, сильной идеи или личного опыта, на выходе получится посредственный, серый продукт генерации общего назначения. Однако если у человека есть уникальный концепт, ИИ становится для него лишь эффективным подмастерьем. Исследовательница провела историческую параллель с великими художниками прошлого:

* **Рембрандт** лично прорисовывал только ключевые, самые сложные и драматичные элементы картины (лица, руки, свет), оставляя проработку фона и одежды своим многочисленным ученикам.
* Современный китайский художник **Ай Вэйвэй** создает масштабные концептуальные инсталляции (например, покрывая залы миллионами фарфоровых подсолнечных семечек), но физическим изготовлением этих объектов занимаются наемные ремесленники по его чертежам.

Таким образом, генеративный искусственный интеллект — это мощнейший инструмент быстрого прототипирования, который берет на себя ремесленную часть работы. В то же время системным решением проблемы засилья низкокачественного автоматического контента в интернете должны стать экономические фильтры. В качестве примера Лидия привела жесткую политику платформы YouTube по полному лишению монетизации каналов, наполненных бессмысленным «ИИ-шлаком», что эффективно защищает цифровое пространство от перепроизводства мусорного контента.