Искусство маниакального подхода: Как Black Forest Labs строят «лучшую в мире» модель генерации изображений

0:00

Создание state-of-the-art (SOTA) модели генерации изображений требует от команды большего, чем просто доступ к огромным массивам данных и мощностям GPU. По словам Сейла Доши, основателя и CEO Black Forest Labs, для достижения вершины в этой индустрии необходимо быть «маниакально внимательным» к каждой детали — от качества текстур кожи до кернинга текста в генерируемых логотипах. В интервью Гарри Тану, президенту Y Combinator, Доши подробно рассказал о пути компании, переосмыслении интерфейсов для ИИ-продуктов и отказе от привычных парадигм промпт-инжиниринга.

🎨 Отказ от промпт-инжиниринга в пользу визуального опыта 11:01

Одной из главных проблем существующих ИИ-инструментов, по мнению команды, является их сложность для рядового пользователя. Традиционные интерфейсы (например, Discord в Midjourney или чат-боты) требуют от человека навыков «магических заклинаний» — составления длинных и сложных текстовых запросов.

Проблема контроля: Ранее пользователям приходилось описывать каждый элемент сцены, но результат часто зависел от случая, а мелкие детали вроде текста или пространственного расположения оставались «смазанными».
Визуальный подход: Black Forest Labs сделали ставку на «визуальный первый» (visual-first) интерфейс, напоминающий современные инструменты дизайна типа Canva. Пользователь выбирает шаблон (пресет) и может модифицировать его естественным языком, просто общаясь с «машинным дизайнером».
Текст как приоритет: По словам Доши, точность генерации текста была «экстраординарным приоритетом». Команда признается, что на этапе разработки их показатель точности текста составлял около 45%, и в какой-то момент они ощущали себя «потерянными в джунглях», но смогли найти решение.

🛠 Архитектурный разрыв с прошлым 24:08

Black Forest Labs решили полностью отказаться от существующих архитектурных решений, которые используют другие open-source модели.

Отказ от CLIP: Модель не использует CLIP (стандартную технологию сопоставления текста и изображений), так как она ограничена архитектурно и содержит много «шума» из-за обучения на скраппинге тегов.
Трансформеры и embedding: Модель активно использует «хвостовые ветры» (Tailwinds) достижений в области языковых моделей, таких как T5 XXL, которые обеспечивают гораздо более глубокое понимание контекста, чем предыдущие архитектуры.
Риск и инновации: Примерно за четыре месяца до запуска команда стояла перед выбором: следовать «нерискованному» пути (похожему на архитектуру FLUX) или пойти по пути «рискованной архитектуры», которая могла провалиться. Они выбрали риск, понимая, что иначе компания рискует остаться позади.

📊 Проблема «слишком хорошей» модели 30:05

Интересный парадокс, с которым столкнулись разработчики: модель стала настолько точно следовать инструкциям пользователя, что это начало мешать «эстетическим» оценкам в классических A/B тестах.

Entanglement (Запутанность): Если модель идеально следует промпту (например, создает композицию из двух частей), пользователи могут предпочесть результат другого генератора, который проигнорировал инструкцию, но выдал более «эстетичную» картинку.
Слом тестов: По мнению Доши, их модель фактически «сломала» стандартные методики оценки, так как она делает именно то, что просит пользователь, а не то, что кажется «красивым» по усредненным метрикам.

📈 Уроки основателя: Выбор рынка и пользователей 35:41

Для Сейла Доши это не первый стартап. Ранее он основал Mixpanel, пройдя через Y Combinator и став лидером в области аналитики. Этот опыт помог ему сформировать философию выбора аудитории.

Рискованные сегменты: В начале пути playground пользователи активно генерировали контент категории «около-порно» (near porn). Доши отмечает, что если бы они просто слушали пользователей в тот момент, они бы превратились в «порно-компанию», что было несовместимо с видением бизнеса.
Урок Макса Левчина: Во времена Mixpanel Доши беспокоился о конкуренции в узком сегменте игровых компаний, но его ментор Max Levchin посоветовал не «плакать о конкурентах», а идти на самый большой доступный рынок.
Масштаб: Сравнивая рынки, Доши отмечает, что потенциал Midjourney (доход $200–300 млн) меркнет по сравнению с рынком графического дизайна, где Canva зарабатывает около $2,3 млрд.

Сейл Доши: «Мы маниакально работаем над каждой деталью»

Искусство маниакального подхода: Как Black Forest Labs строят «лучшую в мире» модель генерации изображений

🎨 Отказ от промпт-инжиниринга в пользу визуального опыта 11:01

🛠 Архитектурный разрыв с прошлым 24:08

📊 Проблема «слишком хорошей» модели 30:05

📈 Уроки основателя: Выбор рынка и пользователей 35:41