Как Baseten меняет правила развертывания ИИ: путь от стартапа до «DataDog для нейросетей»

В современном мире искусственного интеллекта компании часто начинают свой путь с использования API-интерфейсов OpenAI или Anthropic. Однако при масштабировании они неизбежно сталкиваются с ограничениями: высокой стоимостью, отсутствием прозрачности данных и необходимостью развертывания моделей внутри собственного защищенного облака (VPC). Стартап Baseten предлагает решение этой проблемы, предоставляя инфраструктуру для эффективного запуска Open Source моделей.

В этом выпуске подкаста Eye on AI Крейг Смит (Craig Smith) беседует с Тушаром Бхардваджем (Tushar Bhardwaj), сооснователем и генеральным директором Baseten, о том, как компания стала связующим звеном между «железом» и ИИ-приложениями.

🏛️ Истоки: 15 лет в машинном обучении и создание Baseten 0:39

Тушар Бхардвадж посвятил машинному обучению более 15 лет . Его путь начался с изучения электротехники в Университете Южной Калифорнии (USC), после чего он сосредоточился на разработке продуктов в сфере ML и вопросах вывода моделей в реальную эксплуатацию (production).

Основанная пять лет назад в Сан-Франциско и Нью-Йорке, компания Baseten возникла из понимания того, что запуск моделей в работу — это сложный процесс, требующий надежности, безопасности и производительности . Компания позиционирует себя как инфраструктурного игрока, полностью сосредоточенного на задаче инференса (inference) — исполнения уже обученных моделей.

По словам основателя, инфраструктура ИИ делится на две большие задачи:

Обучение (Training): Процесс создания модели.
Инференс (Inference): Работа модели в реальных условиях.

Baseten фокусируется исключительно на втором пункте, предоставляя программный слой, который соединяет вычислительные мощности (GPU) с API-интерфейсами моделей .

🛠️ Технологический стек: «Клей» для ИИ-инфраструктуры 3:06

Многие компании пытаются собрать инфраструктуру для ИИ самостоятельно, используя стандартные сервисы от AWS, GCP или Azure. Однако, по мнению Тушара Бхардваджа, это часто приводит к «войне» с внутренними инструментами облачных гигантов, которые плохо интегрированы между собой .

Baseten предлагает комплексное решение, которое включает:

Управление версиями: Удобное администрирование различных итераций моделей .
CI/CD и развертывание: Инструменты для A/B тестирования, «сине-зеленого» развертывания и плавного вывода моделей в эксплуатацию .
Обсервабильность (Observability): Полноценная панель мониторинга для отслеживания качества и скорости работы моделей .
Оркестрация ресурсов: Возможность запускать одну модель сразу в нескольких облаках с автоматическим перераспределением нагрузки .

Тушар Бхардвадж приводит аналогию с DataDog: точно так же, как DataDog объединяет разрозненные инструменты мониторинга в один интерфейс, Baseten собирает воедино все процессы обслуживания нейросетей .

🚀 Переломный момент: Взрыв Open Source и феномен DeepSeek 7:51

Главным драйвером роста компании стало стремительное развитие моделей с открытым исходным кодом. Если раньше считалось, что только закрытые модели (как у OpenAI) могут быть «фронтирными», то последние два года показали конвергенцию качества Open Source и проприетарных решений .

В качестве примера Тушар Бхардвадж приводит DeepSeek . Когда вышла модель DeepSeek-V3 или R1 с 671 миллиардом параметров, многие компании столкнулись с проблемой: как запустить такого «монстра»?

Для этого требуется огромная мощность: минимум 16 видеокарт H100 или 8 H200 .
Необходимо шардирование (разделение) весов модели между несколькими узлами (multi-node inference) .
Нужно автоматически масштабировать количество реплик в зависимости от трафика .

С помощью Baseten этот процесс упрощается до написания небольшого Python-файла (около 20 строк кода), после чего инфраструктура разворачивается автоматически .

📉 Экономика и эффективность: Почему SageMaker проигрывает? 12:46

Крейг Смит поинтересовался, в чем отличие Baseten от Amazon SageMaker . Тушар Бхардвадж утверждает, что SageMaker создавался в «старом мире» для работы с маленькими моделями, которые легко помещались в память. Современные ИИ-команды часто тратят от 40 до 60 часов на развертывание одной модели в SageMaker, в то время как цель Baseten — сократить это время до 10 минут .

Экономическая выгода достигается тремя путями:

Масштабирование до нуля (Scale to Zero): В отличие от традиционных облаков, где вы платите за GPU, даже когда трафика нет, Baseten позволяет отключать ресурсы в моменты простоя .
Оптимизация производительности: Использование техник дистилляции и спекулятивного декодирования (speculative decoding) позволяет моделям работать быстрее и дешевле .
Коллективные переговоры: Baseten выступает как своего рода «профсоюз стартапов», закупая вычислительные мощности оптом по лучшим ценам и передавая эту выгоду клиентам .

🧠 Философия продукта: Скорость важнее «Open Source ради Open Source» 14:53

Хотя Baseten не является полностью открытым проектом, компания использует множество Open Source инструментов. Например, их библиотека для упаковки моделей Trust открыта для всех .

Тушар Бхардвадж объясняет закрытость основного кода необходимостью двигаться быстро: «Мы строим на плечах гигантов Open Source, но наша цель — дать клиенту возможность выйти на рынок как можно скорее» . Если клиент решит уйти от Baseten, он может легко портировать свои модели благодаря отсутствию привязки к проприетарным форматам .

🏎️ Отношение к «железу»: Cuda против новых чипов 26:06

Обсуждая конкуренцию на рынке чипов, где такие игроки как Groq, Cerebras и SambaNova предлагают невероятную скорость инференса, Тушар Бхардвадж сохраняет прагматизм. Baseten является «чип-агностиком», то есть может работать на любом оборудовании, включая TPU от Google или чипы Trainium от AWS .

Однако на практике работа с любыми чипами, кроме Nvidia, по его словам, остается «болезненной» . Технология Cuda от Nvidia — это старый и проверенный стандарт, с которым инженерам проще работать. Основатель отмечает, что новые компании (Groq и др.) быстры, но им еще предстоит доказать свою экономическую устойчивость при масштабном использовании и построить удобный слой абстракции для разработчиков .

📈 Текущий этап и будущее: Агенты и рассуждающие модели 35:16

На текущий момент у Baseten тысячи клиентов и десятки тысяч развернутых моделей . За последние 18 месяцев выручка и объем использования сервиса выросли в 200 раз .

Тушар Бхардвадж выделяет два ключевых тренда, которые будут определять развитие отрасли в ближайший год:

Агентирование (Agents): Приложения-агенты делают сотни последовательных вызовов моделей, что требует экстремально дешевого и быстрого инференса .
Рассуждающие модели (Reasoning models): Модели, которые тратят больше вычислительных мощностей в момент ответа (inference-time compute), также увеличивают спрос на качественную инфраструктуру .

Гость и ведущий сошлись во мнении, что мы находимся только в самом начале пути. По прогнозу Тушара Бхардваджа, через 5-10 лет количество предприятий, использующих ИИ в своих основных рабочих процессах, увеличится в 10-100 раз .

Для компаний, которые вырастают из простых API и хотят большего контроля, Тушар Бхардвадж предлагает концепцию BYOC (Bring Your Own Cloud): программное обеспечение Baseten разворачивается поверх облака клиента, обеспечивая безопасность данных и гибкость управления .