Сейл Доши: «Мы маниакально работаем над каждой деталью»

Y Combinator 18,8 тыс. 55 мин 3 мин 19.09.2024
Главное

Искусство маниакального подхода: Как Black Forest Labs строят «лучшую в мире» модель генерации изображений

0:00

Создание state-of-the-art (SOTA) модели генерации изображений требует от команды большего, чем просто доступ к огромным массивам данных и мощностям GPU. По словам Сейла Доши, основателя и CEO Black Forest Labs, для достижения вершины в этой индустрии необходимо быть «маниакально внимательным» к каждой детали — от качества текстур кожи до кернинга текста в генерируемых логотипах. В интервью Гарри Тану, президенту Y Combinator, Доши подробно рассказал о пути компании, переосмыслении интерфейсов для ИИ-продуктов и отказе от привычных парадигм промпт-инжиниринга.

🎨 Отказ от промпт-инжиниринга в пользу визуального опыта 11:01

Одной из главных проблем существующих ИИ-инструментов, по мнению команды, является их сложность для рядового пользователя. Традиционные интерфейсы (например, Discord в Midjourney или чат-боты) требуют от человека навыков «магических заклинаний» — составления длинных и сложных текстовых запросов.

🛠 Архитектурный разрыв с прошлым 24:08

Black Forest Labs решили полностью отказаться от существующих архитектурных решений, которые используют другие open-source модели.

📊 Проблема «слишком хорошей» модели 30:05

Интересный парадокс, с которым столкнулись разработчики: модель стала настолько точно следовать инструкциям пользователя, что это начало мешать «эстетическим» оценкам в классических A/B тестах.

📈 Уроки основателя: Выбор рынка и пользователей 35:41

Для Сейла Доши это не первый стартап. Ранее он основал Mixpanel, пройдя через Y Combinator и став лидером в области аналитики. Этот опыт помог ему сформировать философию выбора аудитории.

💬 Цитаты

«Люди будут пробовать эту версию, и она их поразит, но следующая будет еще безумнее.»

Сейл Доши 00:13

«Для достижения SOTA нужно быть маниакально внимательным к каждой детали.»

Сейл Доши 53:42
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
SOTA (State-of-the-art)
Наивысший уровень развития технологии на текущий момент.
CLIP
Нейросеть для связывания текста и изображений, часто используемая в старых моделях.
VAE (Variational Autoencoder)
Компонент архитектуры модели для сжатия и реконструкции деталей изображения.
Prompt Adherence
Точность следования модели текстовой инструкции пользователя.
📊 Цифры
🗓 Хронология
  1. 2018 Сейл Доши ошибочно решил, что в ИИ ничего интересного не происходит.
  2. 4 месяца назад Команда приняла рискованное решение изменить архитектуру модели.
  3. Неделю назад Команда осознала проблему entanglement (запутанности) при оценке эстетики.
⚖️ Другая сторона
Искусственный интеллект Black Forest Labs FLUX.1 Suel Doshi Garry Tan