Джон Милинович из Canva: «Текст — далеко не лучший интерфейс для ИИ»

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает стратегии интеграции искусственного интеллекта с руководителем направления генеративного ИИ в Canva Джоном Милиновичем (John Milinovich). В центре дискуссии — уникальный опыт масштабирования ИИ-инструментов на аудиторию более 200 миллионов пользователей, баланс между автоматизацией рутины и расширением человеческих возможностей, а также переход от манипуляции объектами к управлению концептами. Эксперты подробно разбирают внутреннюю методологию разработки ИИ-продуктов, подходы к оценке субъективного понятия «дизайнерского вкуса» и перспективы развития прикладного слоя генеративных технологий.

⚖️ Автоматизация против дополнения возможностей: фреймворк Canva 5:23

При разработке продуктов в Canva команда опирается на четкое разграничение понятий «творчество» (creativity) и «дизайн» (design). Джон Милинович определяет творчество как процесс генерации или синтеза новых идей, тогда как дизайн представляет собой целеполагающий процесс, направленный на создание конкретного результата для коммуникации или выполнения миссии.

Внутренние исследования пользователей Canva выявили три равные группы потребителей:

одна треть пользователей хочет тратить больше времени непосредственно на проектирование и дизайн;
одна треть стремится сократить время, затрачиваемое на дизайн;
оставшаяся треть желает сохранить текущий баланс времени.

Эта статистика заставляет компанию создавать гибкие инструменты, удовлетворяющие полярные запросы.

Для систематизации функционала Canva разделяет ИИ-инструменты на два вектора: автоматизацию (automation) и дополнение возможностей, или аугментацию (augmentation). Автоматизация призвана убрать рутину и неприятные задачи, в которых пользователь точно знает желаемый финал, но не хочет делать это руками. Примерами служат удаление фона (background remover), функция Magic Switch (конвертация документа в формат презентации) или Magic Sort на виртуальных досках, распределяющая стикеры после мозгового штурма.

Аугментация, напротив, применима в ситуациях, когда пользователь находится за рулем творческого процесса, но пока имеет лишь «размытое ощущение» финального результата. ИИ в данном случае помогает перевести абстрактную идею в осязаемую форму. Ярким примером ИИ-нативного опыта аугментации стал новый инструмент Dreamlab — продукт для генерации изображений по тексту, созданный после приобретения команды Leonardo AI за предполагаемые 320 миллионов долларов. В отличие от функции Magic Media внутри стандартного редактора, которая решает локальную задачу (например, найти изображение для приглашения на день рождения), Dreamlab ориентирован на чистый творческий поиск вне рамок конкретного макета.

🧱 От пикселей к концептам: эволюция интерфейсов дизайна 15:17

Джон Милинович ссылается на кредо генерального директора Canva Мелани Перкинс: исторически ключевой инновацией платформы стал переход от работы с изолированными пикселями к манипуляции объектами. Интеграция шрифтов, стоковых фото, графики и шаблонов в единую среду drag-and-drop сделала творчество доступным массовому пользователю.

По мнению Милиновича, эпоха ИИ знаменует следующий тектонический сдвиг — переход от управления объектами к управлению концептами. Вместо детальной поштучной правки элементов пользователь получает возможность задавать высокоуровневые смысловые инструкции. Проводя аналогию с продуктом Artifacts от компании Anthropic (в модели Claude), гость отмечает, что разработчики сознательно лишили пользователя возможности редактировать отдельные буквы текста, предложив вместо этого концептуальные правки всего markdown-файла.

В сфере генерации изображений этот подход реализуется через мультимодальные диффузионные трансформеры и экосистему сопутствующих технологий (ComfyUI, ControlNet). Современные интерфейсы управления концептами включают:

карты глубины (depth maps) для точного рендеринга трехмерных архитектурных моделей;
модели оценки поз (pose estimation) для фиксации положения тела человека;
модели контента и стиля для удержания семантического смысла и визуального кода бренда.

Инструменты реального времени, такие как Krea AI или realtime-генерация в Leonardo AI, позволяют пользователю набросать абстрактные геометрические фигуры, добавить текстовый промпт и мгновенно увидеть готовый результат, что задает вектор развития ИИ-интерфейсов будущего. При этом Милинович призывает индустрию оспорить гипотезу о том, что текстовый диалог (интерфейс «токен на входе, токен на выходе») — это универсальный и лучший способ взаимодействия с ИИ. Дизайн мультимодален по своей природе, поэтому оптимальный интерфейс должен сочетать текст, изображения, жесты и традиционные клики.

⚙️ Трехвекторный подход к моделям и инженерная культура Canva 44:04

Масштабирование ИИ на сотни миллионов пользователей требует гибкой инфраструктурной стратегии. В Canva принята трехвекторная модель обеспечения технологиями:

Разработка собственных моделей. Компания занимается этим с 2017 года, и сегодня в промышленной эксплуатации (production) находится более 100 собственных моделей для решения специализированных доменных задач.
Партнерство с ведущими исследовательскими лабораториями. Canva тестирует передовые закрытые коммерческие модели фронтир-уровня и интегрирует их возможности.
Развитие экосистемы партнеров по разработке приложений, которые могут нативно предлагать свои ИИ-функции внутри платформы Canva.

Внутренний цикл разработки ИИ-продуктов подчинен жесткому правилу: «Сделай так, чтобы это работало; сделай хорошо; сделай быстро; сделай дешево» (make it work, make it good, make it fast, make it cheap). Вопросы стоимости инференса важны, но они отходят на второй план на этапе прототипирования. Милинович подчеркивает, что учитывая падение стоимости вычислений на 95% за последний год, стартапам не следует чрезмерно зацикливаться на экономике токенов на ранних стадиях.

Важнейшим качеством сильного ИИ-инженера гость называет удержание фокуса на проблеме, а не на конкретном решении (problem orientation vs solution orientation). Он цитирует Дейва Хеппенсталла (бывшего технического директора Canva): «У нас есть идея летающих скейтбордов (ховербордов) уже 50 лет, но никто до сих пор на них не катается». На этапе создания прототипа инженеры легко находят идеальный путь («золотой путь» решения), но доведение точности модели с 81% до необходимых в коммерческих продуктах 98% требует жесткой дисциплины, готовности отбросить неэффективную гипотезу и полностью сменить подход к архитектуре решения.

📊 Проблема субъективного вкуса: методология оценки ИИ-генераций 48:09

Когда ИИ-функциями платформы пользуются более 10 миллиардов раз, разработчики не могут полагаться исключительно на интуицию. Переход от «разработки на основе ощущений» (vibe-driven development) к строгой методологии оценки (eval-based approach) — ключевой вызов для ИИ-продуктов. В отличие от текстовых чат-ботов, для сферы графического дизайна не существует готовых открытых арен тестирования (как LMSYS Chatbot Arena), поэтому Canva пришлось выстраивать систему самостоятельно.

Для преодоления субъективности в оценке визуального качества компания внедрила многоуровневый оффлайн-эвалюатор:

разработаны кастомные строгие гайдлайны, описывающие критерии человеческого вкуса;
сформирован штат профессиональных дизайнеров и обученных асессоров для разметки результатов на выборках, имеющих статистическую значимость;
созданы специализированные «золотые наборы промптов» (golden sets of prompts) для каждой из 500+ категорий дизайна, поскольку критерии качества для презентации, доски или поста в соцсетях принципиально различаются;
проводится слепое сравнительное тестирование, где несколько генераторов конкурируют друг с другом по 5–10 различным метрикам (визуальное качество, точность следования промпту и т.д.).

В качестве примера Джон приводит метрики для оценки удаления фона: корректно ли определен объект на переднем плане, насколько плотно выполнена обрезка, нет ли избыточного или недостаточного отсечения краев. Накопленный массив человеческих оценок позволяет Canva обучать кастомные ML-модели, которые предсказывают человеческую реакцию на качество дизайна. Из-за низкого уровня согласованности между самими людьми (inter-rater alignment) потолок предсказательной силы таких моделей составляет около 70–90%. По мнению Милиновича, ИИ способен эффективно отсеивать откровенно бракованный и низкокачественный контент, но предсказать высшую степень эстетического совершенства системам пока не под силу — здесь всегда потребуется финальное решение человека и его индивидуальный вкус.

💡 Тонкая настройка против длинного контекста: правила ИИ-инженерии 56:34

Милинович делится практическими наблюдениями о целесообразности тонкой настройки (fine-tuning) базовых моделей. Эффективность процесса напрямую зависит от модальности данных. Так, для диффузионных моделей генерации изображений технология LoRA (Low-Rank Adaptation) позволяет зафиксировать и воспроизвести специфический визуальный стиль или бренд-код всего на нескольких десятках примеров.

В случае с текстовыми большими языковыми моделями (LLM) ситуация иная. Тонкая настройка текстовых моделей сопряжена с высоким риском переобучения (overfitting) при малом объеме данных. По словам эксперта, если цель инженера — задать определенную стилистику или уникальный голос бренда, fine-tuning часто оказывается неэффективным.

Учитывая современные длинные контекстные окна ИИ-моделей, Джон дает следующую рекомендацию:

«Перед тем как инвестировать ресурсы в тонкую настройку языковой модели, попробуйте просто дать ей максимум контекста. Если у вас есть окно в миллион токенов, добавление 30 000 или 50 000 токенов с примерами ваших лучших прошлых текстов в 9 случаях из 10 даст более качественный и стабильный результат, чем попытка провести масштабный fine-tuning».

Тонкая настройка LLM, по мнению Милиновича, незаменима для узких задач классификации, но уступает контекстному обучению (in-context learning) в вопросах передачи сложного авторского стиля или «вайба».

📐 Генеративный ИИ в архитектуре: симуляция среды и параметрический дизайн 1:09:34

Имея базовое архитектурное образование, Джон Милинович внимательно отслеживает проникновение генеративного ИИ в сферу проектирования зданий и 3D-моделирования. Он напоминает, что идеи параметрического дизайна — когда изменения геометрии здания зависят от настройки механических ползунков и переменных параметров (площадь, количество комнат) — развиваются еще с 2008 года.

Интеграция ИИ выводит эту дисциплину на уровень концептуального взаимодействия. Архитектор получает возможность вводить текстовые требования к участку и мгновенно генерировать полноценную BIM-модель (Building Information Model) или фотореалистичные рендеры. Однако главная революция ИИ в архитектуре лежит в плоскости симуляции физического опыта:

ИИ позволяет рассчитать внутреннюю температуру и климат здания в зависимости от траектории движения солнца по GPS-координатам, оптимизируя расположение оконных проемов;
модели способны прогнозировать трафик перемещения сотрудников по этажам офиса к узловым точкам (кафетерии, санузлы) для создания более эргономичной планировки.

Отвечая на вопрос о рисках автоматизации профессии архитектора, Милинович утверждает, что ИИ не заменит человека из-за юридической ответственности. Проект здания обязан подписывать аккредитованный специалист, несущий уголовную и гражданскую ответственность за безопасность конструкции. Нейросети заберут на себя рутину подготовки разрешительной документации, планов разводки электрики и сантехники.

В коммерческом плане ИИ изменит фазу тендеров: архитектурные бюро часто вынуждены выполнять колоссальный объем неоплачиваемой работы по визуализации концепта ради победы в конкурсе, и автоматизация этого этапа многократно повысит маржинальность бизнеса. Дополнительный импульс получат вертикально интегрированные компании, объединяющие проектирование и модульное производство домов (prefab housing), где ИИ будет оперировать готовыми элементами фабричного дизайн-кода.

🚀 Перспективы прикладного слоя ИИ: взгляд инвестора 1:18:34

Анализируя тектонические сдвиги в ИТ-платформах (от мейнфреймов к облаку, от десктопа к мобильным устройствам), Джон Милинович констатирует: на старте волны капитал всегда аккумулируется на уровне инфраструктуры (чипы, дата-центры), затем переходит на уровень платформ и лишь в финале раскрывается на уровне приложений. По его оценке, индустрия ИИ всё еще находится в «инфраструктурной эре».

Мировой ВВП составляет порядка 100 триллионов долларов и вырастет до 130 триллионов к 2030 году. При этом технологический сектор занимает в нем всего около 5 триллионов. Генеративный ИИ имеет уникальный потенциал «откусить» долю от традиционного рынка профессиональных услуг (Services Industry), автоматизируя интеллектуальный труд. Комментируя знаменитый отчет Sequoia Capital о «гэпе в 600 миллиардов долларов» (разрыве между затратами на ИИ-инфраструктуру и реальной выручкой), Милинович выражает уверенность, что именно прикладной слой (application layer) принесет львиную долю экономических возвратов в ближайшие 5–10 лет.

При оценке перспективности ИИ-стартапов и формировании личного венчурного портфеля Милинович выделяет три главных индикатора успеха:

Глубокая клиентоцентричность. Основатели должны четко видеть конкретную персону пользователя, чувствовать ее боль и создавать узконишевое, авторитетное решение. Простые тонкие обертки (thin wrappers) над базовыми моделями без четкого позиционирования теряют жизнеспособность.
Фокус на нетехнологичных отраслях. Максимальный рычаг эффективности ИИ демонстрирует в сферах с исторически низким уровнем цифровизации, таких как горнодобывающая промышленность, строительство или коммерческая недвижимость.
Проектирование интерфейсов вокруг ограничений. Лучшие ИИ-приложения создаются командами, которые четко осознают «неровные края» (jagged edges) современных моделей, их склонность к галлюцинациям или неточностям, и выстраивают пользовательский опыт (UX) так, чтобы эти недостатки компенсировались эргономикой интерфейса.