# Сейл Доши: «Мы маниакально работаем над каждой деталью»

Источник: https://www.youtube.com/watch?v=VyIOoqjm8HA
Канал: Y Combinator
Опубликовано: 19.09.2024

---

# Искусство маниакального подхода: Как Black Forest Labs строят «лучшую в мире» модель генерации изображений

[[JUMP:0:00]]

Создание state-of-the-art (SOTA) модели генерации изображений требует от команды большего, чем просто доступ к огромным массивам данных и мощностям GPU. По словам Сейла Доши, основателя и CEO Black Forest Labs, для достижения вершины в этой индустрии необходимо быть «маниакально внимательным» к каждой детали — от качества текстур кожи до кернинга текста в генерируемых логотипах. В интервью Гарри Тану, президенту Y Combinator, Доши подробно рассказал о пути компании, переосмыслении интерфейсов для ИИ-продуктов и отказе от привычных парадигм промпт-инжиниринга.

## 🎨 Отказ от промпт-инжиниринга в пользу визуального опыта
[[JUMP:11:01]]

Одной из главных проблем существующих ИИ-инструментов, по мнению команды, является их сложность для рядового пользователя. Традиционные интерфейсы (например, Discord в Midjourney или чат-боты) требуют от человека навыков «магических заклинаний» — составления длинных и сложных текстовых запросов.

*   **Проблема контроля:** Ранее пользователям приходилось описывать каждый элемент сцены, но результат часто зависел от случая, а мелкие детали вроде текста или пространственного расположения оставались «смазанными».
*   **Визуальный подход:** Black Forest Labs сделали ставку на «визуальный первый» (visual-first) интерфейс, напоминающий современные инструменты дизайна типа Canva. Пользователь выбирает шаблон (пресет) и может модифицировать его естественным языком, просто общаясь с «машинным дизайнером».
*   **Текст как приоритет:** По словам Доши, точность генерации текста была «экстраординарным приоритетом». Команда признается, что на этапе разработки их показатель точности текста составлял около 45%, и в какой-то момент они ощущали себя «потерянными в джунглях», но смогли найти решение.

## 🛠 Архитектурный разрыв с прошлым
[[JUMP:24:08]]

Black Forest Labs решили полностью отказаться от существующих архитектурных решений, которые используют другие open-source модели. 

*   **Отказ от CLIP:** Модель не использует CLIP (стандартную технологию сопоставления текста и изображений), так как она ограничена архитектурно и содержит много «шума» из-за обучения на скраппинге тегов.
*   **Трансформеры и embedding:** Модель активно использует «хвостовые ветры» (Tailwinds) достижений в области языковых моделей, таких как T5 XXL, которые обеспечивают гораздо более глубокое понимание контекста, чем предыдущие архитектуры.
*   **Риск и инновации:** Примерно за четыре месяца до запуска команда стояла перед выбором: следовать «нерискованному» пути (похожему на архитектуру FLUX) или пойти по пути «рискованной архитектуры», которая могла провалиться. Они выбрали риск, понимая, что иначе компания рискует остаться позади.

## 📊 Проблема «слишком хорошей» модели
[[JUMP:30:05]]

Интересный парадокс, с которым столкнулись разработчики: модель стала настолько точно следовать инструкциям пользователя, что это начало мешать «эстетическим» оценкам в классических A/B тестах.

*   **Entanglement (Запутанность):** Если модель идеально следует промпту (например, создает композицию из двух частей), пользователи могут предпочесть результат другого генератора, который проигнорировал инструкцию, но выдал более «эстетичную» картинку.
*   **Слом тестов:** По мнению Доши, их модель фактически «сломала» стандартные методики оценки, так как она делает именно то, что просит пользователь, а не то, что кажется «красивым» по усредненным метрикам.

## 📈 Уроки основателя: Выбор рынка и пользователей
[[JUMP:35:41]]

Для Сейла Доши это не первый стартап. Ранее он основал Mixpanel, пройдя через Y Combinator и став лидером в области аналитики. Этот опыт помог ему сформировать философию выбора аудитории.

*   **Рискованные сегменты:** В начале пути playground пользователи активно генерировали контент категории «около-порно» (near porn). Доши отмечает, что если бы они просто слушали пользователей в тот момент, они бы превратились в «порно-компанию», что было несовместимо с видением бизнеса.
*   **Урок Макса Левчина:** Во времена Mixpanel Доши беспокоился о конкуренции в узком сегменте игровых компаний, но его ментор Max Levchin посоветовал не «плакать о конкурентах», а идти на самый большой доступный рынок.
*   **Масштаб:** Сравнивая рынки, Доши отмечает, что потенциал Midjourney (доход $200–300 млн) меркнет по сравнению с рынком графического дизайна, где Canva зарабатывает около $2,3 млрд.