В мире генеративного искусственного интеллекта, где лидерство меняется каждые несколько недель, инфраструктурные компании становятся фундаментом новой индустрии. В подкасте венчурного фонда a16z сооснователь Fal.ai Буркай Гюр (Burkay Gur) и ведущий инженер Батухан Таская (Batuhan Taskaya) рассказывают, как их стартап превратился из эксперимента по оптимизации Python-нагрузок в ведущую платформу для генеративных медиа, способную конкурировать по скорости с технологическими гигантами.
🛠 От защиты Coinbase до «золотой лихорадки» генеративного ИИ 1:06
История Fal.ai началась около четырех лет назад, когда Буркай Гюр, работавший в Coinbase над проблемами машинного обучения и борьбы с фродом, осознал масштаб инфраструктурных проблем в этой области . Изначально проект задумывался как платформа для создания ML-пайплайнов для компаний. Однако спустя полтора года после запуска выход ChatGPT и DALL-E полностью изменил ландшафт рынка, заставив команду адаптироваться к новым реалиям .
Важной вехой в развитии компании стал наём Батухана Таскаи, известного в сообществе как «the fal guy» . Батухан, будучи крупным контрибьютором в ядро языка Python, присоединился к команде в тот момент, когда он собирался бросать университет в Польше и возвращаться в Турцию . Гюр вспоминает, что решающим фактором для найма стало привлечение инвестиций от a16z — именно это убедило талантливого инженера войти в состав первых сотрудников стартапа .
Батухан Таская принёс в компанию глубокую экспертизу в области компиляторов и операционных систем. Его путь начался с написания собственных ядер и шелл-языков в раннем возрасте, что позже переросло в работу над парсером и интерпретатором Python . По мнению Гюра, именно сочетание технического любопытства и фундаментальных знаний в разработке инструментов позволило Fal.ai найти свою нишу в оптимизации весов моделей .
🔄 Пивот в сторону медиа: почему не LLM? 5:01
В 2021 году, когда большинство компаний фокусировалось на больших языковых моделях (LLM), основатели Fal.ai приняли стратегическое решение сосредоточиться на генеративных медиа — изображениях, видео и аудио . Поворотным моментом стал звонок в День благодарения в ноябре 2021 года .
Команда исходила из следующих предположений:
- Python станет «новым SQL» для облачных вычислений .
- Нагрузки, связанные с генерацией контента, будут расти в геометрической прогрессии.
- Существующие решения были слишком медленными: запуск Stable Diffusion 1.5 (SD1.5) в то время занимал от 10 до 19 секунд, что казалось основателям неприемлемым .
По мнению Гюра, старые корпоративные нагрузки выглядели менее захватывающими, чем масштабирование новых ИИ-моделей . Это любопытство привело их к глубокой оптимизации SD1.5. Команда, состоявшая тогда из 5–6 человек, буквально «выжала все соки» из модели, что создало Fal.ai репутацию самой быстрой платформы на рынке .
⚡️ Инженерия в условиях дефицита: как выжить на 8 GPU 7:22
В начале пути Fal.ai столкнулась с жесточайшим дефицитом вычислительных мощностей. Гюр вспоминает, что Google Cloud выделил стартапу квоту всего на 8 GPU . В то время как Hugging Face использовал систему очередей из-за наплыва пользователей, команде Fal.ai пришлось идти к первым принципам оптимизации, чтобы максимизировать отдачу от каждого чипа .
Батухан Таская описывает процесс оптимизации как поиск узких мест на уровне железа:
- Расчёт максимально достижимых терафлопсов (TFLOPS) для конкретного GPU.
- Сравнение этого показателя с реальными потребностями модели.
- Шардирование рабочих нагрузок и использование многопоточности для устранения простоев вычислительных блоков .
Благодаря созданию кастомных ядер и подключаемой системы оптимизаций, команда смогла быстро адаптироваться к выходу новых моделей . Гюр утверждает, что скорость стала для них не просто техническим параметром, а главным рыночным рычагом («wedge») для привлечения клиентов .
🏗 Инфраструктура как секретный соус 23:38
Основатели Fal.ai считают свою инфраструктуру «распределенным суперкомпьютером», который позволяет управлять десятками тысяч GPU в пиковые моменты . Они отказались от стандартных решений вроде Kubernetes для оркестрации инференса, так как задержка в 5 секунд при «холодном старте» контейнера была недопустима для их задач .
Ключевые технические инновации платформы:
- Собственная система оркестрации: позволяет запускать и останавливать нагрузку менее чем за секунду, что критично для экономии дорогого времени GPU .
- Многоуровневое кэширование: распределенная файловая система позволяет считывать веса моделей из памяти соседних узлов по сети 100 Гбит или из локального NVME, минуя медленные S3-хранилища .
- Мультиоблачность: Fal.ai объединяет мощности различных провайдеров, предоставляя разработчикам единый интерфейс доступа .
По словам Таскаи, они не считают саму по себе скорость инференса долгосрочным преимуществом (moat), так как опенсорс и Nvidia постоянно догоняют . По его мнению, настоящим преимуществом является способность команды всегда быть на шаг впереди, внедряя самые свежие идеи и оптимизации быстрее конкурентов .
📈 Marketplace-динамика и конкуренция моделей 18:17
Рынок видеомоделей сейчас находится в состоянии «яростной конкуренции», где лидер меняется каждые две недели . Гюр отмечает, что когда OpenAI анонсировала Sora, многие в индустрии впали в панику, считая, что соревнование закончено. Однако последующие релизы от Luma, Runway, Kling и Minimax доказали обратное .
Fal.ai де-факто превратилась в двусторонний маркетплейс:
- Для разработчиков: доступ к лучшим моделям (Flux, Kling, Imagen) через единый быстрый API .
- Для создателей моделей: возможность мгновенного выхода на огромную аудиторию разработчиков и помощь в оптимизации нагрузок перед запуском .
Буркай Гюр утверждает, что сегодня недостаточно просто выпустить хорошую модель — нужно быть лучшим в момент релиза, иначе о тебе забудут через месяц . На платформе Fal.ai наблюдается феномен специализации: пользователи часто остаются на старых моделях (например, 9-месячной давности), если те лучше справляются с узкими задачами, такими как генерация логотипов или виртуальная примерка одежды .
🤝 Культура «инженерных продаж» 29:42
Fal.ai демонстрирует необычный подход к построению бизнеса: первые 28 сотрудников компании были инженерами . Даже сейчас, когда команда выросла до 40 человек, отдел продаж (GTM) составляет всего 6 человек, а остальные — это инженеры по прикладному машинному обучению (Applied ML) и инфраструктуре .
Особенности их взаимодействия с клиентами:
- Slack Connect как стандарт: инженеры Fal.ai напрямую общаются с клиентами в сотнях общих каналов .
- Отказ от классических презентаций: Гюр считает, что инженеры ненавидят, когда им что-то «продают». Вместо этого компания предлагает партнерство и совместное решение технических проблем .
- Applied ML как опора: более половины инженерного штата занимается тем, что помогает клиентам внедрять модели в продакшн, выступая в роли экспертов по продукту .
Гюр признается, что поначалу у них как у технарей был скепсис по отношению к продажам, но после первых успехов они «вошли во вкус» и долгое время занимались продажами самостоятельно (founder-led sales) .
🔮 Прогноз на 2025 год: переломный момент для видео 12:31
Буркай Гюр подтверждает свой прогноз: 2025 год станет точкой невозврата для ИИ-видео . Он связывает это с резким скачком качества моделей из китайских лабораторий (например, Kling и Minimax) и анонсом Google Veo 3 .
По мнению собеседников, в будущем мы увидим:
- Сверхбыстрые рабочие процессы: переход от текстовых промптов к сложным цепочкам (workflows), где изображения апскейлятся, редактируются и превращаются в видео в рамках одного пайплайна .
- Новые форматы развлечений: появление коротких «играбельных» видео и персонализированных рекламных объявлений, генерируемых в реальном времени под конкретного зрителя .
- ИИ в каждом кадре: Гюр шутит, что в будущем даже интервьюеры могут стать нейросетями, хотя это и лишит беседу части удовольствия .
Гюр резюмирует, что «кот уже вылез из мешка» — ИИ-видео повсюду в лентах соцсетей, и вопрос не в том, взлетит ли технология, а в том, какие новые индустрии она создаст .