Как Baseten меняет правила развертывания ИИ: путь от стартапа до «DataDog для нейросетей»

Eye on AI 1,4 тыс. 46 мин 5 мин 26.02.2025
Главное

В современном мире искусственного интеллекта компании часто начинают свой путь с использования API-интерфейсов OpenAI или Anthropic. Однако при масштабировании они неизбежно сталкиваются с ограничениями: высокой стоимостью, отсутствием прозрачности данных и необходимостью развертывания моделей внутри собственного защищенного облака (VPC). Стартап Baseten предлагает решение этой проблемы, предоставляя инфраструктуру для эффективного запуска Open Source моделей.

В этом выпуске подкаста Eye on AI Крейг Смит (Craig Smith) беседует с Тушаром Бхардваджем (Tushar Bhardwaj), сооснователем и генеральным директором Baseten, о том, как компания стала связующим звеном между «железом» и ИИ-приложениями.

🏛️ Истоки: 15 лет в машинном обучении и создание Baseten 0:39

Тушар Бхардвадж посвятил машинному обучению более 15 лет . Его путь начался с изучения электротехники в Университете Южной Калифорнии (USC), после чего он сосредоточился на разработке продуктов в сфере ML и вопросах вывода моделей в реальную эксплуатацию (production).

Основанная пять лет назад в Сан-Франциско и Нью-Йорке, компания Baseten возникла из понимания того, что запуск моделей в работу — это сложный процесс, требующий надежности, безопасности и производительности . Компания позиционирует себя как инфраструктурного игрока, полностью сосредоточенного на задаче инференса (inference) — исполнения уже обученных моделей.

По словам основателя, инфраструктура ИИ делится на две большие задачи:

Baseten фокусируется исключительно на втором пункте, предоставляя программный слой, который соединяет вычислительные мощности (GPU) с API-интерфейсами моделей .

🛠️ Технологический стек: «Клей» для ИИ-инфраструктуры 3:06

Многие компании пытаются собрать инфраструктуру для ИИ самостоятельно, используя стандартные сервисы от AWS, GCP или Azure. Однако, по мнению Тушара Бхардваджа, это часто приводит к «войне» с внутренними инструментами облачных гигантов, которые плохо интегрированы между собой .

Baseten предлагает комплексное решение, которое включает:

Тушар Бхардвадж приводит аналогию с DataDog: точно так же, как DataDog объединяет разрозненные инструменты мониторинга в один интерфейс, Baseten собирает воедино все процессы обслуживания нейросетей .

🚀 Переломный момент: Взрыв Open Source и феномен DeepSeek 7:51

Главным драйвером роста компании стало стремительное развитие моделей с открытым исходным кодом. Если раньше считалось, что только закрытые модели (как у OpenAI) могут быть «фронтирными», то последние два года показали конвергенцию качества Open Source и проприетарных решений .

В качестве примера Тушар Бхардвадж приводит DeepSeek . Когда вышла модель DeepSeek-V3 или R1 с 671 миллиардом параметров, многие компании столкнулись с проблемой: как запустить такого «монстра»?

  1. Для этого требуется огромная мощность: минимум 16 видеокарт H100 или 8 H200 .
  2. Необходимо шардирование (разделение) весов модели между несколькими узлами (multi-node inference) .
  3. Нужно автоматически масштабировать количество реплик в зависимости от трафика .

С помощью Baseten этот процесс упрощается до написания небольшого Python-файла (около 20 строк кода), после чего инфраструктура разворачивается автоматически .

📉 Экономика и эффективность: Почему SageMaker проигрывает? 12:46

Крейг Смит поинтересовался, в чем отличие Baseten от Amazon SageMaker . Тушар Бхардвадж утверждает, что SageMaker создавался в «старом мире» для работы с маленькими моделями, которые легко помещались в память. Современные ИИ-команды часто тратят от 40 до 60 часов на развертывание одной модели в SageMaker, в то время как цель Baseten — сократить это время до 10 минут .

Экономическая выгода достигается тремя путями:

🧠 Философия продукта: Скорость важнее «Open Source ради Open Source» 14:53

Хотя Baseten не является полностью открытым проектом, компания использует множество Open Source инструментов. Например, их библиотека для упаковки моделей Trust открыта для всех .

Тушар Бхардвадж объясняет закрытость основного кода необходимостью двигаться быстро: «Мы строим на плечах гигантов Open Source, но наша цель — дать клиенту возможность выйти на рынок как можно скорее» . Если клиент решит уйти от Baseten, он может легко портировать свои модели благодаря отсутствию привязки к проприетарным форматам .

🏎️ Отношение к «железу»: Cuda против новых чипов 26:06

Обсуждая конкуренцию на рынке чипов, где такие игроки как Groq, Cerebras и SambaNova предлагают невероятную скорость инференса, Тушар Бхардвадж сохраняет прагматизм. Baseten является «чип-агностиком», то есть может работать на любом оборудовании, включая TPU от Google или чипы Trainium от AWS .

Однако на практике работа с любыми чипами, кроме Nvidia, по его словам, остается «болезненной» . Технология Cuda от Nvidia — это старый и проверенный стандарт, с которым инженерам проще работать. Основатель отмечает, что новые компании (Groq и др.) быстры, но им еще предстоит доказать свою экономическую устойчивость при масштабном использовании и построить удобный слой абстракции для разработчиков .

📈 Текущий этап и будущее: Агенты и рассуждающие модели 35:16

На текущий момент у Baseten тысячи клиентов и десятки тысяч развернутых моделей . За последние 18 месяцев выручка и объем использования сервиса выросли в 200 раз .

Тушар Бхардвадж выделяет два ключевых тренда, которые будут определять развитие отрасли в ближайший год:

  1. Агентирование (Agents): Приложения-агенты делают сотни последовательных вызовов моделей, что требует экстремально дешевого и быстрого инференса .
  2. Рассуждающие модели (Reasoning models): Модели, которые тратят больше вычислительных мощностей в момент ответа (inference-time compute), также увеличивают спрос на качественную инфраструктуру .

Гость и ведущий сошлись во мнении, что мы находимся только в самом начале пути. По прогнозу Тушара Бхардваджа, через 5-10 лет количество предприятий, использующих ИИ в своих основных рабочих процессах, увеличится в 10-100 раз .

Для компаний, которые вырастают из простых API и хотят большего контроля, Тушар Бхардвадж предлагает концепцию BYOC (Bring Your Own Cloud): программное обеспечение Baseten разворачивается поверх облака клиента, обеспечивая безопасность данных и гибкость управления .

💬 Цитаты

«Становится почти безответственно не рассматривать использование Open Source моделей в вашей стратегии сегодня.»

Тушар Бхардвадж 24:49

«Мы хотим, чтобы нас воспринимали как программный слой, а не как наценку на вычислительные мощности.»

Тушар Бхардвадж 20:06

«Инференс становится критически важным: агенты и рассуждающие модели требуют все больше и больше вычислительных ресурсов.»

Тушар Бхардвадж 37:42
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Инференс (Inference)
Процесс использования обученной модели для получения предсказаний или ответов на новые данные.
VPC (Virtual Private Cloud)
Изолированное частное облако внутри публичного облачного провайдера для повышения безопасности.
Шардирование (Sharding)
Метод разделения большой модели на части для их одновременного запуска на нескольких GPU.
Scale to Zero
Возможность автоматического отключения вычислительных ресурсов, когда к модели нет обращений, для экономии денег.
Cuda
Программная платформа от Nvidia для параллельных вычислений на GPU.
📊 Цифры
🗓 Хронология
  1. 2020 Основание компании Baseten в Сан-Франциско.
  2. Ноябрь 2022 «Момент ChatGPT», начало бурного интереса к LLM.
  3. Середина 2023 Начало взрывного роста Baseten (увеличение выручки в 200 раз за 18 месяцев).
  4. Январь 2025 Выход моделей DeepSeek-V3 и R1, вызвавший новый всплеск спроса на инфраструктуру.
  5. 2025 Текущий этап: тысячи клиентов и десятки тысяч развернутых моделей.
⚖️ Другая сторона
Стартапы и бизнес Baseten Тушар Бхардвадж DeepSeek ИИ-инфраструктура Машинное обучение