# Основатель Fal.ai Буркай Гюр о войне ИИ-моделей: «Лидер меняется каждые две недели»

Источник: https://www.youtube.com/watch?v=NKNYKYoDSNA
Канал: a16z (Andreessen Horowitz)
Опубликовано: 01.08.2025

---

В мире генеративного искусственного интеллекта, где лидерство меняется каждые несколько недель, инфраструктурные компании становятся фундаментом новой индустрии. В подкасте венчурного фонда a16z сооснователь Fal.ai Буркай Гюр (Burkay Gur) и ведущий инженер Батухан Таская (Batuhan Taskaya) рассказывают, как их стартап превратился из эксперимента по оптимизации Python-нагрузок в ведущую платформу для генеративных медиа, способную конкурировать по скорости с технологическими гигантами.

## 🛠 От защиты Coinbase до «золотой лихорадки» генеративного ИИ
[[JUMP:01:06]]

История Fal.ai началась около четырех лет назад, когда Буркай Гюр, работавший в Coinbase над проблемами машинного обучения и борьбы с фродом, осознал масштаб инфраструктурных проблем в этой области [01:06]. Изначально проект задумывался как платформа для создания ML-пайплайнов для компаний. Однако спустя полтора года после запуска выход ChatGPT и DALL-E полностью изменил ландшафт рынка, заставив команду адаптироваться к новым реалиям [01:32].

Важной вехой в развитии компании стал наём Батухана Таскаи, известного в сообществе как «the fal guy» [01:59]. Батухан, будучи крупным контрибьютором в ядро языка Python, присоединился к команде в тот момент, когда он собирался бросать университет в Польше и возвращаться в Турцию [03:04]. Гюр вспоминает, что решающим фактором для найма стало привлечение инвестиций от a16z — именно это убедило талантливого инженера войти в состав первых сотрудников стартапа [02:39].

Батухан Таская принёс в компанию глубокую экспертизу в области компиляторов и операционных систем. Его путь начался с написания собственных ядер и шелл-языков в раннем возрасте, что позже переросло в работу над парсером и интерпретатором Python [03:56]. По мнению Гюра, именно сочетание технического любопытства и фундаментальных знаний в разработке инструментов позволило Fal.ai найти свою нишу в оптимизации весов моделей [06:44].

## 🔄 Пивот в сторону медиа: почему не LLM?
[[JUMP:05:01]]

В 2021 году, когда большинство компаний фокусировалось на больших языковых моделях (LLM), основатели Fal.ai приняли стратегическое решение сосредоточиться на генеративных медиа — изображениях, видео и аудио [05:01]. Поворотным моментом стал звонок в День благодарения в ноябре 2021 года [05:14].

Команда исходила из следующих предположений:

*   Python станет «новым SQL» для облачных вычислений [05:40].
*   Нагрузки, связанные с генерацией контента, будут расти в геометрической прогрессии.
*   Существующие решения были слишком медленными: запуск Stable Diffusion 1.5 (SD1.5) в то время занимал от 10 до 19 секунд, что казалось основателям неприемлемым [06:19].

По мнению Гюра, старые корпоративные нагрузки выглядели менее захватывающими, чем масштабирование новых ИИ-моделей [06:06]. Это любопытство привело их к глубокой оптимизации SD1.5. Команда, состоявшая тогда из 5–6 человек, буквально «выжала все соки» из модели, что создало Fal.ai репутацию самой быстрой платформы на рынке [07:09].

## ⚡️ Инженерия в условиях дефицита: как выжить на 8 GPU
[[JUMP:07:22]]

В начале пути Fal.ai столкнулась с жесточайшим дефицитом вычислительных мощностей. Гюр вспоминает, что Google Cloud выделил стартапу квоту всего на 8 GPU [08:00]. В то время как Hugging Face использовал систему очередей из-за наплыва пользователей, команде Fal.ai пришлось идти к первым принципам оптимизации, чтобы максимизировать отдачу от каждого чипа [07:47].

Батухан Таская описывает процесс оптимизации как поиск узких мест на уровне железа:

1.  Расчёт максимально достижимых терафлопсов (TFLOPS) для конкретного GPU.
2.  Сравнение этого показателя с реальными потребностями модели.
3.  Шардирование рабочих нагрузок и использование многопоточности для устранения простоев вычислительных блоков [09:04].

Благодаря созданию кастомных ядер и подключаемой системы оптимизаций, команда смогла быстро адаптироваться к выходу новых моделей [09:42]. Гюр утверждает, что скорость стала для них не просто техническим параметром, а главным рыночным рычагом («wedge») для привлечения клиентов [07:09].

## 🏗 Инфраструктура как секретный соус
[[JUMP:23:38]]

Основатели Fal.ai считают свою инфраструктуру «распределенным суперкомпьютером», который позволяет управлять десятками тысяч GPU в пиковые моменты [24:04]. Они отказались от стандартных решений вроде Kubernetes для оркестрации инференса, так как задержка в 5 секунд при «холодном старте» контейнера была недопустима для их задач [25:46].

Ключевые технические инновации платформы:

*   **Собственная система оркестрации:** позволяет запускать и останавливать нагрузку менее чем за секунду, что критично для экономии дорогого времени GPU [25:59].
*   **Многоуровневое кэширование:** распределенная файловая система позволяет считывать веса моделей из памяти соседних узлов по сети 100 Гбит или из локального NVME, минуя медленные S3-хранилища [27:30].
*   **Мультиоблачность:** Fal.ai объединяет мощности различных провайдеров, предоставляя разработчикам единый интерфейс доступа [26:12].

По словам Таскаи, они не считают саму по себе скорость инференса долгосрочным преимуществом (moat), так как опенсорс и Nvidia постоянно догоняют [28:10]. По его мнению, настоящим преимуществом является способность команды всегда быть на шаг впереди, внедряя самые свежие идеи и оптимизации быстрее конкурентов [28:35].

## 📈 Marketplace-динамика и конкуренция моделей
[[JUMP:18:17]]

Рынок видеомоделей сейчас находится в состоянии «яростной конкуренции», где лидер меняется каждые две недели [19:34]. Гюр отмечает, что когда OpenAI анонсировала Sora, многие в индустрии впали в панику, считая, что соревнование закончено. Однако последующие релизы от Luma, Runway, Kling и Minimax доказали обратное [19:47].

Fal.ai де-факто превратилась в двусторонний маркетплейс:

*   **Для разработчиков:** доступ к лучшим моделям (Flux, Kling, Imagen) через единый быстрый API [23:13].
*   **Для создателей моделей:** возможность мгновенного выхода на огромную аудиторию разработчиков и помощь в оптимизации нагрузок перед запуском [23:38].

Буркай Гюр утверждает, что сегодня недостаточно просто выпустить хорошую модель — нужно быть лучшим в момент релиза, иначе о тебе забудут через месяц [00:51]. На платформе Fal.ai наблюдается феномен специализации: пользователи часто остаются на старых моделях (например, 9-месячной давности), если те лучше справляются с узкими задачами, такими как генерация логотипов или виртуальная примерка одежды [21:18].

## 🤝 Культура «инженерных продаж»
[[JUMP:29:42]]

Fal.ai демонстрирует необычный подход к построению бизнеса: первые 28 сотрудников компании были инженерами [29:42]. Даже сейчас, когда команда выросла до 40 человек, отдел продаж (GTM) составляет всего 6 человек, а остальные — это инженеры по прикладному машинному обучению (Applied ML) и инфраструктуре [30:21].

Особенности их взаимодействия с клиентами:

*   **Slack Connect как стандарт:** инженеры Fal.ai напрямую общаются с клиентами в сотнях общих каналов [34:29].
*   **Отказ от классических презентаций:** Гюр считает, что инженеры ненавидят, когда им что-то «продают». Вместо этого компания предлагает партнерство и совместное решение технических проблем [34:55].
*   **Applied ML как опора:** более половины инженерного штата занимается тем, что помогает клиентам внедрять модели в продакшн, выступая в роли экспертов по продукту [31:01].

Гюр признается, что поначалу у них как у технарей был скепсис по отношению к продажам, но после первых успехов они «вошли во вкус» и долгое время занимались продажами самостоятельно (founder-led sales) [33:27].

## 🔮 Прогноз на 2025 год: переломный момент для видео
[[JUMP:12:31]]

Буркай Гюр подтверждает свой прогноз: 2025 год станет точкой невозврата для ИИ-видео [12:31]. Он связывает это с резким скачком качества моделей из китайских лабораторий (например, Kling и Minimax) и анонсом Google Veo 3 [12:44].

По мнению собеседников, в будущем мы увидим:

1.  **Сверхбыстрые рабочие процессы:** переход от текстовых промптов к сложным цепочкам (workflows), где изображения апскейлятся, редактируются и превращаются в видео в рамках одного пайплайна [14:31].
2.  **Новые форматы развлечений:** появление коротких «играбельных» видео и персонализированных рекламных объявлений, генерируемых в реальном времени под конкретного зрителя [37:02].
3.  **ИИ в каждом кадре:** Гюр шутит, что в будущем даже интервьюеры могут стать нейросетями, хотя это и лишит беседу части удовольствия [38:08].

Гюр резюмирует, что «кот уже вылез из мешка» — ИИ-видео повсюду в лентах соцсетей, и вопрос не в том, взлетит ли технология, а в том, какие новые индустрии она создаст [36:24].