Сухейл Доши, основатель Playground AI и бывший глава Mixpanel, прошел путь от создания облачного браузера до разработки одного из самых популярных инструментов генерации изображений. В беседе на подкасте «The Cognitive Revolution» он раскрывает внутреннюю кухню ИИ-индустрии, объясняет, почему считает промпты временным костылем, и описывает будущее, в котором нейросети станут «Skrillex в мире пикселей».
🛠️ От облачного браузера к ИИ-революции: истоки Playground AI 4:06
Путь Сухейла Доши в сферу искусственного интеллекта начался с амбициозного проекта Mighty — браузера, работающего в мощном дата-центре, чтобы сделать работу в веб-приложениях быстрее. Однако в процессе разработки Сухейл заметил, что адресная строка Chromium практически не изменилась за пять лет и остается крайне «глупой». Пытаясь улучшить предсказания в адресной строке и добавить функции суммаризации текстов с помощью GPT-3, он осознал масштаб надвигающихся перемен.
Переломным моментом стал выход модели DALL-E 2 в апреле 2022 года. Доши признается, что не мог выкинуть мысли об ИИ из головы. Однажды в 11 вечера он сел и составил в Apple Notes карту рынка: от компаний, занимающихся визуализацией обучения (Weights & Biases), до инфраструктуры исполнения моделей (Replicate.com). В этой карте он искал свободную нишу, где продукт действительно нуждался в качественном интерфейсе.
По словам Сухейла, его осенило, когда он увидел сложность редактора OpenAI:
- Интерфейс превращался из простого текстового поля в нагромождение слайдеров и настроек.
- Появились функции вставки текста (in-painting), которые требовали более тонкого управления.
- Доши пришел к выводу: промпт сам по себе требует полноценного продукта, а не просто командной строки.
🎯 Миссия Playground AI: «Что подумал, то и получил» 11:32
Сухейл Доши четко разграничивает цели своего проекта и таких гигантов, как Adobe. По его мнению, Playground AI не пытается заменить Photoshop или Illustrator. Вместо этого компания создает инструмент для людей, не обладающих профессиональными навыками дизайна, но имеющих хороший вкус.
Текущий этап и планы развития:
- Среднесрочная цель: Превратить генератор из «лутбокса», где пользователь просто ждет случайный результат, в мощный творческий инструмент с тонким контролем.
- Концепция WYTIWYG: Доши стремится реализовать принцип «What You Think Is What You Get» (что подумал, то и получил), заменяя длинные абзацы текста интуитивными UI-контроллерами.
- Разработка LLIM: Доши вводит термин Large Language Image Model — модель, которая не только создает, но и понимает пиксели, позволяя вносить правки командами вроде «переложи пистолет в левую руку» или «сделай куртку черной».
По прогнозам гостя, уже в ближайшее время Playground представит свою версию «GPT-2 для пикселей», которая заложит фундамент для понимания видео и 3D-пространства.
🎨 Искусство против ИИ: неделя «отмены» и музыкальные аналогии 16:38
В октябре 2022 года Сухейл Доши столкнулся с жесткой критикой со стороны арт-сообщества. По его словам, он был «отменен» на неделю в Twitter и Reddit после утверждения, что ИИ-арт — это тоже искусство. Гость вспоминает, что получал даже угрозы расправой, но это заставило его задуматься о причинах такой ярости.
Аргументы Доши в защиту ИИ-искусства:
- Аналогия с музыкой: Появление драм-машин не убило живые группы, но создало хип-хоп. Появление DAW (цифровых рабочих станций) позволило Skrillex создавать звуки, невозможные для классических инструментов.
- Эволюция навыков: Художники, умеющие рисовать вручную, получат преимущество, используя ИИ в своем рабочем процессе как дополнительный рычаг.
- Человеческий фактор: Доши уверен, что «человек плюс машина» всегда даст лучший результат, так как искусство создается людьми для людей.
Собеседники сошлись во мнении, что страх художников вызван скоростью перемен: между выходом DALL-E 2 и Stable Diffusion прошло всего четыре месяца, что не оставило времени на адаптацию.
⚙️ Техническая кухня и «магия» латентного пространства 33:47
В подкасте подробно разбирается понятие «латентного пространства». По определению Доши, это сжатое, низкоразмерное представление изображения. Поскольку компьютеры не обладают бесконечными ресурсами, изображения кодируются в векторы.
Процесс генерации, по словам Сухейла, похож на движение стрелки в многомерном пространстве:
- Если вы добавляете слово «акварель», вы толкаете вектор изображения в сторону кластера акварельных рисунков.
- Минимальное изменение «зерна» (seed) может кардинально поменять цвет волос, но сохранить общую стилистику, так как сущность запроса остается в той же области пространства.
Особое внимание Доши уделяет инфраструктуре. В отличие от многих стартапов, Playground AI владеет собственным «железом» на миллионы долларов, оставшимся от проекта Mighty. Это позволяет компании предлагать крайне щедрый бесплатный тариф — 1000 генераций в день, в то время как конкуренты часто ограничиваются сотней в месяц.
🚀 Скорость как стратегия: от публикации весов до релиза за 4 дня 25:57
Доши подчеркивает, что в мире ИИ побеждает тот, кто быстрее всех вращает «маховик данных». Он привел пример: когда исследователи опубликовали веса модели instruct-pix2pix в четверг, команда Playground AI бросила всё, работала все выходные и запустила новую функцию редактирования уже в понедельник в 14:00.
Ключевые инсайты по продуктовой аналитике:
- A/B тесты: Доши признается, что никогда не был их фанатом. Он предпочитает качественную обратную связь от пользователей и мониторинг жизненно важных метрик.
- Пропускная способность: Оптимизация API, сделавшая генерацию в два раза быстрее, привела к мгновенному двукратному росту количества создаваемых изображений. Пользователи просто «поглощают» любые мощности, которые им дают.
- Промпты как баг: Соглашаясь с Ильей Суцкевером из OpenAI, Сухейл считает необходимость писать абзацы текста для получения картинки временным несовершенством технологии.
🔮 Будущее: ИИ-религии и дружба с роботами 1:18:29
Завершая разговор, Сухейл Доши поделился размышлениями о том, каким будет мир в 2050 году, когда вырастет его сын. Он предполагает возникновение глубоко философских и даже странных ситуаций:
- ИИ-религии: Возможно появление культов, где божество — это нейросеть, с которой можно буквально поговорить и получить ответ.
- Смена социальных норм: Доши допускает, что будущие поколения могут предпочитать дружбу или даже брак с ИИ-агентами, которые всегда внимательны и интересны.
Несмотря на футуристические прогнозы, в бизнесе Сухейл остается прагматиком. Он считает, что хотя базовые модели (LLM) со временем могут стать товаром (commoditized), лидерство сохранят те, кто предлагает «State-of-the-art» решения и владеет уникальными данными.