Основатель Fal.ai Буркай Гюр о войне ИИ-моделей: «Лидер меняется каждые две недели»

В мире генеративного искусственного интеллекта, где лидерство меняется каждые несколько недель, инфраструктурные компании становятся фундаментом новой индустрии. В подкасте венчурного фонда a16z сооснователь Fal.ai Буркай Гюр (Burkay Gur) и ведущий инженер Батухан Таская (Batuhan Taskaya) рассказывают, как их стартап превратился из эксперимента по оптимизации Python-нагрузок в ведущую платформу для генеративных медиа, способную конкурировать по скорости с технологическими гигантами.

🛠 От защиты Coinbase до «золотой лихорадки» генеративного ИИ 1:06

История Fal.ai началась около четырех лет назад, когда Буркай Гюр, работавший в Coinbase над проблемами машинного обучения и борьбы с фродом, осознал масштаб инфраструктурных проблем в этой области . Изначально проект задумывался как платформа для создания ML-пайплайнов для компаний. Однако спустя полтора года после запуска выход ChatGPT и DALL-E полностью изменил ландшафт рынка, заставив команду адаптироваться к новым реалиям .

Важной вехой в развитии компании стал наём Батухана Таскаи, известного в сообществе как «the fal guy» . Батухан, будучи крупным контрибьютором в ядро языка Python, присоединился к команде в тот момент, когда он собирался бросать университет в Польше и возвращаться в Турцию . Гюр вспоминает, что решающим фактором для найма стало привлечение инвестиций от a16z — именно это убедило талантливого инженера войти в состав первых сотрудников стартапа .

Батухан Таская принёс в компанию глубокую экспертизу в области компиляторов и операционных систем. Его путь начался с написания собственных ядер и шелл-языков в раннем возрасте, что позже переросло в работу над парсером и интерпретатором Python . По мнению Гюра, именно сочетание технического любопытства и фундаментальных знаний в разработке инструментов позволило Fal.ai найти свою нишу в оптимизации весов моделей .

🔄 Пивот в сторону медиа: почему не LLM? 5:01

В 2021 году, когда большинство компаний фокусировалось на больших языковых моделях (LLM), основатели Fal.ai приняли стратегическое решение сосредоточиться на генеративных медиа — изображениях, видео и аудио . Поворотным моментом стал звонок в День благодарения в ноябре 2021 года .

Команда исходила из следующих предположений:

Python станет «новым SQL» для облачных вычислений .
Нагрузки, связанные с генерацией контента, будут расти в геометрической прогрессии.
Существующие решения были слишком медленными: запуск Stable Diffusion 1.5 (SD1.5) в то время занимал от 10 до 19 секунд, что казалось основателям неприемлемым .

По мнению Гюра, старые корпоративные нагрузки выглядели менее захватывающими, чем масштабирование новых ИИ-моделей . Это любопытство привело их к глубокой оптимизации SD1.5. Команда, состоявшая тогда из 5–6 человек, буквально «выжала все соки» из модели, что создало Fal.ai репутацию самой быстрой платформы на рынке .

⚡️ Инженерия в условиях дефицита: как выжить на 8 GPU 7:22

В начале пути Fal.ai столкнулась с жесточайшим дефицитом вычислительных мощностей. Гюр вспоминает, что Google Cloud выделил стартапу квоту всего на 8 GPU . В то время как Hugging Face использовал систему очередей из-за наплыва пользователей, команде Fal.ai пришлось идти к первым принципам оптимизации, чтобы максимизировать отдачу от каждого чипа .

Батухан Таская описывает процесс оптимизации как поиск узких мест на уровне железа:

Расчёт максимально достижимых терафлопсов (TFLOPS) для конкретного GPU.
Сравнение этого показателя с реальными потребностями модели.
Шардирование рабочих нагрузок и использование многопоточности для устранения простоев вычислительных блоков .

Благодаря созданию кастомных ядер и подключаемой системы оптимизаций, команда смогла быстро адаптироваться к выходу новых моделей . Гюр утверждает, что скорость стала для них не просто техническим параметром, а главным рыночным рычагом («wedge») для привлечения клиентов .

🏗 Инфраструктура как секретный соус 23:38

Основатели Fal.ai считают свою инфраструктуру «распределенным суперкомпьютером», который позволяет управлять десятками тысяч GPU в пиковые моменты . Они отказались от стандартных решений вроде Kubernetes для оркестрации инференса, так как задержка в 5 секунд при «холодном старте» контейнера была недопустима для их задач .

Ключевые технические инновации платформы:

Собственная система оркестрации: позволяет запускать и останавливать нагрузку менее чем за секунду, что критично для экономии дорогого времени GPU .
Многоуровневое кэширование: распределенная файловая система позволяет считывать веса моделей из памяти соседних узлов по сети 100 Гбит или из локального NVME, минуя медленные S3-хранилища .
Мультиоблачность: Fal.ai объединяет мощности различных провайдеров, предоставляя разработчикам единый интерфейс доступа .

По словам Таскаи, они не считают саму по себе скорость инференса долгосрочным преимуществом (moat), так как опенсорс и Nvidia постоянно догоняют . По его мнению, настоящим преимуществом является способность команды всегда быть на шаг впереди, внедряя самые свежие идеи и оптимизации быстрее конкурентов .

📈 Marketplace-динамика и конкуренция моделей 18:17

Рынок видеомоделей сейчас находится в состоянии «яростной конкуренции», где лидер меняется каждые две недели . Гюр отмечает, что когда OpenAI анонсировала Sora, многие в индустрии впали в панику, считая, что соревнование закончено. Однако последующие релизы от Luma, Runway, Kling и Minimax доказали обратное .

Fal.ai де-факто превратилась в двусторонний маркетплейс:

Для разработчиков: доступ к лучшим моделям (Flux, Kling, Imagen) через единый быстрый API .
Для создателей моделей: возможность мгновенного выхода на огромную аудиторию разработчиков и помощь в оптимизации нагрузок перед запуском .

Буркай Гюр утверждает, что сегодня недостаточно просто выпустить хорошую модель — нужно быть лучшим в момент релиза, иначе о тебе забудут через месяц . На платформе Fal.ai наблюдается феномен специализации: пользователи часто остаются на старых моделях (например, 9-месячной давности), если те лучше справляются с узкими задачами, такими как генерация логотипов или виртуальная примерка одежды .

🤝 Культура «инженерных продаж» 29:42

Fal.ai демонстрирует необычный подход к построению бизнеса: первые 28 сотрудников компании были инженерами . Даже сейчас, когда команда выросла до 40 человек, отдел продаж (GTM) составляет всего 6 человек, а остальные — это инженеры по прикладному машинному обучению (Applied ML) и инфраструктуре .

Особенности их взаимодействия с клиентами:

Slack Connect как стандарт: инженеры Fal.ai напрямую общаются с клиентами в сотнях общих каналов .
Отказ от классических презентаций: Гюр считает, что инженеры ненавидят, когда им что-то «продают». Вместо этого компания предлагает партнерство и совместное решение технических проблем .
Applied ML как опора: более половины инженерного штата занимается тем, что помогает клиентам внедрять модели в продакшн, выступая в роли экспертов по продукту .

Гюр признается, что поначалу у них как у технарей был скепсис по отношению к продажам, но после первых успехов они «вошли во вкус» и долгое время занимались продажами самостоятельно (founder-led sales) .

🔮 Прогноз на 2025 год: переломный момент для видео 12:31

Буркай Гюр подтверждает свой прогноз: 2025 год станет точкой невозврата для ИИ-видео . Он связывает это с резким скачком качества моделей из китайских лабораторий (например, Kling и Minimax) и анонсом Google Veo 3 .

По мнению собеседников, в будущем мы увидим:

Сверхбыстрые рабочие процессы: переход от текстовых промптов к сложным цепочкам (workflows), где изображения апскейлятся, редактируются и превращаются в видео в рамках одного пайплайна .
Новые форматы развлечений: появление коротких «играбельных» видео и персонализированных рекламных объявлений, генерируемых в реальном времени под конкретного зрителя .
ИИ в каждом кадре: Гюр шутит, что в будущем даже интервьюеры могут стать нейросетями, хотя это и лишит беседу части удовольствия .

Гюр резюмирует, что «кот уже вылез из мешка» — ИИ-видео повсюду в лентах соцсетей, и вопрос не в том, взлетит ли технология, а в том, какие новые индустрии она создаст .