В современном мире искусственного интеллекта компании часто начинают свой путь с использования API-интерфейсов OpenAI или Anthropic. Однако при масштабировании они неизбежно сталкиваются с ограничениями: высокой стоимостью, отсутствием прозрачности данных и необходимостью развертывания моделей внутри собственного защищенного облака (VPC). Стартап Baseten предлагает решение этой проблемы, предоставляя инфраструктуру для эффективного запуска Open Source моделей.
В этом выпуске подкаста Eye on AI Крейг Смит (Craig Smith) беседует с Тушаром Бхардваджем (Tushar Bhardwaj), сооснователем и генеральным директором Baseten, о том, как компания стала связующим звеном между «железом» и ИИ-приложениями.
🏛️ Истоки: 15 лет в машинном обучении и создание Baseten 0:39
Тушар Бхардвадж посвятил машинному обучению более 15 лет . Его путь начался с изучения электротехники в Университете Южной Калифорнии (USC), после чего он сосредоточился на разработке продуктов в сфере ML и вопросах вывода моделей в реальную эксплуатацию (production).
Основанная пять лет назад в Сан-Франциско и Нью-Йорке, компания Baseten возникла из понимания того, что запуск моделей в работу — это сложный процесс, требующий надежности, безопасности и производительности . Компания позиционирует себя как инфраструктурного игрока, полностью сосредоточенного на задаче инференса (inference) — исполнения уже обученных моделей.
По словам основателя, инфраструктура ИИ делится на две большие задачи:
- Обучение (Training): Процесс создания модели.
- Инференс (Inference): Работа модели в реальных условиях.
Baseten фокусируется исключительно на втором пункте, предоставляя программный слой, который соединяет вычислительные мощности (GPU) с API-интерфейсами моделей .
🛠️ Технологический стек: «Клей» для ИИ-инфраструктуры 3:06
Многие компании пытаются собрать инфраструктуру для ИИ самостоятельно, используя стандартные сервисы от AWS, GCP или Azure. Однако, по мнению Тушара Бхардваджа, это часто приводит к «войне» с внутренними инструментами облачных гигантов, которые плохо интегрированы между собой .
Baseten предлагает комплексное решение, которое включает:
- Управление версиями: Удобное администрирование различных итераций моделей .
- CI/CD и развертывание: Инструменты для A/B тестирования, «сине-зеленого» развертывания и плавного вывода моделей в эксплуатацию .
- Обсервабильность (Observability): Полноценная панель мониторинга для отслеживания качества и скорости работы моделей .
- Оркестрация ресурсов: Возможность запускать одну модель сразу в нескольких облаках с автоматическим перераспределением нагрузки .
Тушар Бхардвадж приводит аналогию с DataDog: точно так же, как DataDog объединяет разрозненные инструменты мониторинга в один интерфейс, Baseten собирает воедино все процессы обслуживания нейросетей .
🚀 Переломный момент: Взрыв Open Source и феномен DeepSeek 7:51
Главным драйвером роста компании стало стремительное развитие моделей с открытым исходным кодом. Если раньше считалось, что только закрытые модели (как у OpenAI) могут быть «фронтирными», то последние два года показали конвергенцию качества Open Source и проприетарных решений .
В качестве примера Тушар Бхардвадж приводит DeepSeek . Когда вышла модель DeepSeek-V3 или R1 с 671 миллиардом параметров, многие компании столкнулись с проблемой: как запустить такого «монстра»?
- Для этого требуется огромная мощность: минимум 16 видеокарт H100 или 8 H200 .
- Необходимо шардирование (разделение) весов модели между несколькими узлами (multi-node inference) .
- Нужно автоматически масштабировать количество реплик в зависимости от трафика .
С помощью Baseten этот процесс упрощается до написания небольшого Python-файла (около 20 строк кода), после чего инфраструктура разворачивается автоматически .
📉 Экономика и эффективность: Почему SageMaker проигрывает? 12:46
Крейг Смит поинтересовался, в чем отличие Baseten от Amazon SageMaker . Тушар Бхардвадж утверждает, что SageMaker создавался в «старом мире» для работы с маленькими моделями, которые легко помещались в память. Современные ИИ-команды часто тратят от 40 до 60 часов на развертывание одной модели в SageMaker, в то время как цель Baseten — сократить это время до 10 минут .
Экономическая выгода достигается тремя путями:
- Масштабирование до нуля (Scale to Zero): В отличие от традиционных облаков, где вы платите за GPU, даже когда трафика нет, Baseten позволяет отключать ресурсы в моменты простоя .
- Оптимизация производительности: Использование техник дистилляции и спекулятивного декодирования (speculative decoding) позволяет моделям работать быстрее и дешевле .
- Коллективные переговоры: Baseten выступает как своего рода «профсоюз стартапов», закупая вычислительные мощности оптом по лучшим ценам и передавая эту выгоду клиентам .
🧠 Философия продукта: Скорость важнее «Open Source ради Open Source» 14:53
Хотя Baseten не является полностью открытым проектом, компания использует множество Open Source инструментов. Например, их библиотека для упаковки моделей Trust открыта для всех .
Тушар Бхардвадж объясняет закрытость основного кода необходимостью двигаться быстро: «Мы строим на плечах гигантов Open Source, но наша цель — дать клиенту возможность выйти на рынок как можно скорее» . Если клиент решит уйти от Baseten, он может легко портировать свои модели благодаря отсутствию привязки к проприетарным форматам .
🏎️ Отношение к «железу»: Cuda против новых чипов 26:06
Обсуждая конкуренцию на рынке чипов, где такие игроки как Groq, Cerebras и SambaNova предлагают невероятную скорость инференса, Тушар Бхардвадж сохраняет прагматизм. Baseten является «чип-агностиком», то есть может работать на любом оборудовании, включая TPU от Google или чипы Trainium от AWS .
Однако на практике работа с любыми чипами, кроме Nvidia, по его словам, остается «болезненной» . Технология Cuda от Nvidia — это старый и проверенный стандарт, с которым инженерам проще работать. Основатель отмечает, что новые компании (Groq и др.) быстры, но им еще предстоит доказать свою экономическую устойчивость при масштабном использовании и построить удобный слой абстракции для разработчиков .
📈 Текущий этап и будущее: Агенты и рассуждающие модели 35:16
На текущий момент у Baseten тысячи клиентов и десятки тысяч развернутых моделей . За последние 18 месяцев выручка и объем использования сервиса выросли в 200 раз .
Тушар Бхардвадж выделяет два ключевых тренда, которые будут определять развитие отрасли в ближайший год:
- Агентирование (Agents): Приложения-агенты делают сотни последовательных вызовов моделей, что требует экстремально дешевого и быстрого инференса .
- Рассуждающие модели (Reasoning models): Модели, которые тратят больше вычислительных мощностей в момент ответа (inference-time compute), также увеличивают спрос на качественную инфраструктуру .
Гость и ведущий сошлись во мнении, что мы находимся только в самом начале пути. По прогнозу Тушара Бхардваджа, через 5-10 лет количество предприятий, использующих ИИ в своих основных рабочих процессах, увеличится в 10-100 раз .
Для компаний, которые вырастают из простых API и хотят большего контроля, Тушар Бхардвадж предлагает концепцию BYOC (Bring Your Own Cloud): программное обеспечение Baseten разворачивается поверх облака клиента, обеспечивая безопасность данных и гибкость управления .