Инфраструктура для эры агентов: как Baseten обеспечивает работу современных моделей
Видео под названием «Инфраструктура для AI-агентов с Baseten» от канала Greylock представляет глубокий анализ текущего состояния рынка AI-инфраструктуры. В беседе принимают участие ведущий канала и Тин Гейл (Tien Anh Nguyen), сооснователь и CEO компании Baseten. Основная тема дискуссии — переход компаний от использования готовых API к созданию собственной «интеллектуальной собственности» через дообучение моделей, а также вызовы, с которыми сталкиваются разработчики в условиях дефицита вычислительных мощностей и стремительного развития агентных технологий.
🏢 Baseten: инфраструктура для «собственного интеллекта» 0:27
Тин Гейл определяет Baseten как компанию, специализирующуюся на инфраструктуре для инференса (запуска моделей) производственного уровня, ориентированную на быстрорастущие компании. По мнению Гейла, мир движется не к двум-трем глобальным моделям, а к экосистеме, где компании обладают собственным «интеллектом».
Концепция перехода от «арендованного» интеллекта к «собственному» подразумевает, что компании перестают просто вызывать внешние API и начинают:
- Дообучать модели на своих специфических данных, чтобы добиваться максимальной эффективности в конкретных задачах.
- Полностью контролировать качество работы, производительность и показатели задержки (SLA).
- Оптимизировать стоимость и утилизацию ресурсов под свои нужды.
Гейл отмечает, что клиенты Baseten, такие как Cursor, Intercom, Decagon и OpenEvidence, активно занимаются дообучением собственных моделей.
📉 Кривая адаптации AI в бизнесе 3:00
Адаптация AI в бизнесе происходит по-разному в зависимости от зрелости компании:
- Стартапы: Начинают с готовых закрытых моделей для быстрого прототипирования, затем постепенно переходят к оптимизации и гибридным решениям.
- Стратегические компании: После достижения определенного масштаба начинают комбинировать закрытые, открытые и собственные модели для создания уникальных рабочих процессов.
- Enterprise: Пока этот сегмент находится на ранней стадии внедрения, фокусируясь в основном на прикладном уровне, а не на инфраструктуре.
Гейл считает, что сектор здравоохранения и финансов показывает наиболее быстрые темпы внедрения из-за предельно ясной окупаемости (ROI), несмотря на историческое технологическое отставание этих отраслей.
🧠 Посттренинг и новые инструменты 6:01
По словам Гейла, резкий рост интереса к дообучению моделей (fine-tuning) обусловлен тремя факторами:
- Качество открытых моделей значительно выросло, что сделало их жизнеспособной альтернативой закрытым решениям.
- Компании накопили достаточно опыта, чтобы увидеть реальную ценность дообучения, а не просто рост затрат.
- Инфраструктурные игроки, включая Baseten, сделали процесс развертывания и обучения моделей собственными силами технически доступным.
В ноябре 2025 года Baseten приобрела компанию Parsed для развития направления непрерывного обучения (continual learning). Гейл подчеркивает, что компания не является исследовательской лабораторией, а фокусируется на клиентах, но проводит прикладные исследования для решения реальных бизнес-задач.
🤖 Эра долгосрочных агентов 10:34
В рамках дискуссии об агентных рабочих процессах (agentic workflows) Гейл отмечает, что сама природа инференса меняется. Если раньше это был прямой путь «ввод — вывод», то сейчас модели должны «размышлять», использовать инструменты и выполнять сложные многоэтапные задачи.
Инфраструктура для таких агентов требует:
- Экосистемы инструментов, включая песочницы для исполнения кода.
- Возможности маршрутизации между различными моделями для разных этапов задачи.
- Обеспечения высокой надежности и производительности выполнения длинных цепочек действий.
⚡️ Дефицит мощностей и стратегия Baseten 19:18
Один из самых острых вопросов — дефицит вычислительных мощностей. Гейл называет ситуацию «в 10 раз более жесткой», чем принято думать в публичном поле. Крупнейшие компании мира выкупают практически всё доступное оборудование, что делает долгосрочное планирование практически невозможным.
Стратегия Baseten в таких условиях — максимальная распределенность. Компания работает с 15–20 облачными провайдерами и 80–100 регионами по всему миру. Это решение, принятое на ранних этапах развития, позволяет:
- Обеспечивать отказоустойчивость и работу в разных VPC (виртуальных частных облаках).
- Захватывать разрозненные вычислительные кластеры и объединять их в единую сеть.
- Размещать модели ближе к конечным пользователям для снижения задержек.
По словам Гейла, успех в такой быстро меняющейся среде требует от компании предельной близости к клиенту: инженеры Baseten регулярно общаются с пользователями, что позволяет оперативно адаптировать платформу к их нуждам.