Сухейл Доши: «Промпты — это баг, будущее за прямым управлением пикселями»

The Cognitive Revolution 3,7 тыс. 1 ч 21 мин 5 мин 03.02.2023
Главное

Сухейл Доши, основатель Playground AI и бывший глава Mixpanel, прошел путь от создания облачного браузера до разработки одного из самых популярных инструментов генерации изображений. В беседе на подкасте «The Cognitive Revolution» он раскрывает внутреннюю кухню ИИ-индустрии, объясняет, почему считает промпты временным костылем, и описывает будущее, в котором нейросети станут «Skrillex в мире пикселей».

🛠️ От облачного браузера к ИИ-революции: истоки Playground AI 4:06

Путь Сухейла Доши в сферу искусственного интеллекта начался с амбициозного проекта Mighty — браузера, работающего в мощном дата-центре, чтобы сделать работу в веб-приложениях быстрее. Однако в процессе разработки Сухейл заметил, что адресная строка Chromium практически не изменилась за пять лет и остается крайне «глупой». Пытаясь улучшить предсказания в адресной строке и добавить функции суммаризации текстов с помощью GPT-3, он осознал масштаб надвигающихся перемен.

Переломным моментом стал выход модели DALL-E 2 в апреле 2022 года. Доши признается, что не мог выкинуть мысли об ИИ из головы. Однажды в 11 вечера он сел и составил в Apple Notes карту рынка: от компаний, занимающихся визуализацией обучения (Weights & Biases), до инфраструктуры исполнения моделей (Replicate.com). В этой карте он искал свободную нишу, где продукт действительно нуждался в качественном интерфейсе.

По словам Сухейла, его осенило, когда он увидел сложность редактора OpenAI:

🎯 Миссия Playground AI: «Что подумал, то и получил» 11:32

Сухейл Доши четко разграничивает цели своего проекта и таких гигантов, как Adobe. По его мнению, Playground AI не пытается заменить Photoshop или Illustrator. Вместо этого компания создает инструмент для людей, не обладающих профессиональными навыками дизайна, но имеющих хороший вкус.

Текущий этап и планы развития:

По прогнозам гостя, уже в ближайшее время Playground представит свою версию «GPT-2 для пикселей», которая заложит фундамент для понимания видео и 3D-пространства.

🎨 Искусство против ИИ: неделя «отмены» и музыкальные аналогии 16:38

В октябре 2022 года Сухейл Доши столкнулся с жесткой критикой со стороны арт-сообщества. По его словам, он был «отменен» на неделю в Twitter и Reddit после утверждения, что ИИ-арт — это тоже искусство. Гость вспоминает, что получал даже угрозы расправой, но это заставило его задуматься о причинах такой ярости.

Аргументы Доши в защиту ИИ-искусства:

  1. Аналогия с музыкой: Появление драм-машин не убило живые группы, но создало хип-хоп. Появление DAW (цифровых рабочих станций) позволило Skrillex создавать звуки, невозможные для классических инструментов.
  2. Эволюция навыков: Художники, умеющие рисовать вручную, получат преимущество, используя ИИ в своем рабочем процессе как дополнительный рычаг.
  3. Человеческий фактор: Доши уверен, что «человек плюс машина» всегда даст лучший результат, так как искусство создается людьми для людей.

Собеседники сошлись во мнении, что страх художников вызван скоростью перемен: между выходом DALL-E 2 и Stable Diffusion прошло всего четыре месяца, что не оставило времени на адаптацию.

⚙️ Техническая кухня и «магия» латентного пространства 33:47

В подкасте подробно разбирается понятие «латентного пространства». По определению Доши, это сжатое, низкоразмерное представление изображения. Поскольку компьютеры не обладают бесконечными ресурсами, изображения кодируются в векторы.

Процесс генерации, по словам Сухейла, похож на движение стрелки в многомерном пространстве:

Особое внимание Доши уделяет инфраструктуре. В отличие от многих стартапов, Playground AI владеет собственным «железом» на миллионы долларов, оставшимся от проекта Mighty. Это позволяет компании предлагать крайне щедрый бесплатный тариф — 1000 генераций в день, в то время как конкуренты часто ограничиваются сотней в месяц.

🚀 Скорость как стратегия: от публикации весов до релиза за 4 дня 25:57

Доши подчеркивает, что в мире ИИ побеждает тот, кто быстрее всех вращает «маховик данных». Он привел пример: когда исследователи опубликовали веса модели instruct-pix2pix в четверг, команда Playground AI бросила всё, работала все выходные и запустила новую функцию редактирования уже в понедельник в 14:00.

Ключевые инсайты по продуктовой аналитике:

🔮 Будущее: ИИ-религии и дружба с роботами 1:18:29

Завершая разговор, Сухейл Доши поделился размышлениями о том, каким будет мир в 2050 году, когда вырастет его сын. Он предполагает возникновение глубоко философских и даже странных ситуаций:

Несмотря на футуристические прогнозы, в бизнесе Сухейл остается прагматиком. Он считает, что хотя базовые модели (LLM) со временем могут стать товаром (commoditized), лидерство сохранят те, кто предлагает «State-of-the-art» решения и владеет уникальными данными.

💬 Цитаты

«Промпты — это по большей части баг. Людям приходится писать абзацы текста, чтобы получить изображения мирового уровня, и это досадно.»

Сухейл Доши 29:23

«Я искренне верю, что ИИ-арт — это искусство. И я был полностью «отменен» арт-сообществом за это утверждение.»

Сухейл Доши 16:52

«Пользователи знают, что такое хороший дизайн. Человечество отлично умеет различать детали, когда они сделаны правильно.»

Сухейл Доши 33:20
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Латентное пространство
Математическое представление данных в сжатом виде, где похожие объекты располагаются рядом.
Denoising (Шумоподавление)
Процесс создания изображения путем постепенного удаления случайного шума на основе текстового запроса.
LLIM
Large Language Image Model — концепция модели, которая одновременно понимает текст и структуру пикселей.
In-painting
Технология ИИ, позволяющая дорисовывать или изменять фрагменты внутри уже существующего изображения.
📊 Цифры
🗓 Хронология
  1. Январь 2021 Анонс первой модели DALL-E от OpenAI.
  2. Апрель 2022 Запуск DALL-E 2, ставший толчком для Сухейла заняться ИИ.
  3. Август 2022 Релиз весов модели Stable Diffusion.
  4. Октябрь 2022 Неделя «отмены» Сухейла Доши в социальных сетях арт-сообществом.
  5. Май 2023 Приблизительная дата записи подкаста (согласно контексту обсуждения новинок).
⚖️ Другая сторона
Искусственный интеллект Suhail Doshi Playground AI Large Language Image Model The Cognitive Revolution