# Baseten: Как превратить ML-модель в полноценное приложение за несколько часов

Источник: https://www.youtube.com/watch?v=EhBtJj2OsU8
Канал: Greylock
Опубликовано: 26.04.2022

---

Венчурный фонд Greylock объявил об инвестициях в размере 20 миллионов долларов (Seed и Series A) в стартап Baseten — платформу, которая позволяет командам специалистов по машинному обучению (ML) самостоятельно создавать полноценные бизнес-приложения. В рамках выпуска подкаста «Gray Matter» генеральный партнер Greylock Сара Гуо обсудила с сооснователем и генеральным директором Baseten Тухином Шриваставой (Tuhin Srivastava), почему современный рынок ИИ-инструментов сфокусирован на исследованиях, а не на реальной ценности для бизнеса.

## 🚀 Переход от ML-моделей к бизнес-результатам
[[JUMP:00:02]]

Сегодня создание сквозных продуктов на базе машинного обучения остается сложной задачей для бизнеса [0:02]. Baseten предлагает решение, которое делает этот процесс быстрым и бесшовным, предоставляя serverless-инфраструктуру для создания масштабируемых приложений, интегрированных в рабочие процессы [0:17]. По словам Тухина Шриваставы, платформа сокращает время окупаемости (time to value) усилий в области ML: команды могут внедрять свои модели в приложения производственного уровня за часы, а не за месяцы [0:43].

В рамках одной платформы специалисты по Data Science и ML могут:

*   Выполнять предварительную обработку данных (pre-processing).
*   Развертывать и обслуживать свои модели (serving).
*   Создавать пользовательские интерфейсы (UI) для взаимодействия с моделями [0:57].

Сара Гуо отмечает, что ландшафт инструментов для ML крайне перегружен стартапами, однако Baseten нашел свободную нишу («белое пятно») [1:23]. В то время как большинство компаний сосредоточены на архитектуре моделей или установлении новых рекордов производительности (benchmarks), сфера применения этих инноваций к реальным бизнес-проблемам остается катастрофически недообслуживаемой [3:30]. 

Инвестиционный тезис Greylock заключается в том, что подавляющее большинство компаний находятся на ранней стадии пути к прикладному использованию ML [3:44]. Часто бизнес откладывает внедрение ИИ, считая это «вторым шагом» своей стратегии — тем, что можно позволить себе только после найма огромной команды дорогостоящих специалистов [4:09]. Baseten же стремится сделать ML продуктовой, а не исследовательской функцией [2:50].

## 🛠 Личный опыт: почему Data-сайентистам приходится становиться Full-stack инженерами
[[JUMP:04:36]]

Идея Baseten выросла из личного опыта основателей (Тухина Шриваставы, Фила Башараба и Амира Абу-Эль-Нейла) [4:36]. Тухин и Фил знакомы с 12 лет, а с Амиром они встретились в 2012 году, будучи первыми сотрудниками маркетплейса Gumroad [4:51].

В Gumroad Тухин столкнулся с проблемой мошенничества: объем фрода на платформе одно время превышал объем реальных транзакций [5:04]. Имея академический опыт в ML, он быстро создал модель для обнаружения фрода. Однако возникла преграда: чтобы модель приносила пользу, ее нужно было интегрировать в продукт. У Тухина не было навыков разработки ПО, и CTO сказал, что свободных инженерных ресурсов нет [5:43].

В итоге Тухину пришлось самостоятельно:

*   Изучать серверную разработку и Flask.
*   Осваивать деплой на AWS.
*   Строить интерфейсы, так как в то время еще не было инструментов вроде Retool [6:10].

Этот процесс занял несколько месяцев. По мнению Тухина, это неэффективно: для каждой новой ML-модели требовалось эквивалентное количество инженерных ресурсов [7:02]. Аналогичную ситуацию Амир наблюдал в компании Clover Health, где врачи были вынуждены искать результаты работы сложных моделей в огромных таблицах, потому что не было удобного интерфейса [7:27]. В результате многие перспективные ML-проекты закрывались из-за отсутствия видимого ROI и сложности внедрения [8:20].

## 👥 Кто и как использует Baseten сегодня
[[JUMP:09:39]]

Сара Гуо подчеркивает, что требовать от кандидата наук (PhD) из Стэнфорда одновременно изучать React и DevOps — это нерациональное использование талантов [9:39]. Baseten ориентируется на так называемые «hustler-команды» — специалистов, у которых есть опыт создания моделей, но нет мощной инфраструктурной поддержки [10:18].

Среди текущих пользователей платформы:

*   **Patreon и Pipe:** используют Baseten для модерации контента, андеррайтинга активов, разметки данных и транскрибации аудио [10:44].
*   **Primer:** стартап, который с помощью Baseten определяет возраст участников в аудиокомнатах для детей [11:10].
*   **Некоммерческие организации:** используют языковые модели для перевода материалов о COVID-19 в Африке [11:23].
*   **Климатические компании:** рассчитывают оптимальное размещение энергетических сетей в море [11:35].

Тухин отмечает «магический момент», когда пользователи начинают самостоятельно осваивать концепции платформы — вьюхи (Views) и рабочие процессы (Worklets) — и приходить с запросами на улучшение конкретных бизнес-логик, а не просто жаловаться на инфраструктуру [16:46].

## 🏗 Три столпа платформы и путь через итерации
[[JUMP:13:58]]

Разработка Baseten длилась более двух лет [12:02]. Команда прошла через множество итераций, несколько раз полностью переписывая бэкенд и пересматривая абстракции [15:14]. Тухин признает, что изначально они ошиблись с целевой аудиторией, ориентируясь на крупный энтерпрайз и не уделяя должного внимания удобству использования (usability) [14:36].

Сейчас продукт состоит из трех ключевых компонентов, которые Тухин называет «мини-компаниями внутри одной»:

1.  **Движок развертывания моделей (Model Deployment):** позволяет развернуть модель в один клик. В библиотеке уже более 30 современных моделей, включая Wave2Vec и интеграцию с GPT-3 [24:20].
2.  **Конструктор рабочих процессов (Worklet Builder):** создание API-эндпоинтов, где модель окружается бизнес-логикой (например, запись результатов предсказания напрямую в Salesforce) [24:32].
3.  **Конструктор интерфейсов (Views):** drag-and-drop редактор для создания UI, с которым будут взаимодействовать конечные пользователи или аналитики [24:45].

Платформа запущена в статусе публичной беты [22:10]. Это решение принято, чтобы пригласить пользователей к сотворчеству, при этом сохранив пространство для маневра в доработке абстракций [22:47]. Конечная цель — создание экосистемы шаблонов. Например, компания с проблемой модерации контента сможет на 90% решить свою задачу, используя готовый шаблон Baseten, включающий модель, логику очередей и интерфейс для ревьюера [25:11].

## 🌍 Удаленная работа и миссия компании
[[JUMP:19:59]]

За последний год Baseten значительно расширил штат, достигнув отметки в 20 человек [20:12]. Хотя Тухин изначально был противником удаленного формата, пандемия изменила его взгляды. Теперь это распределенная команда с сотрудниками в Сан-Франциско, Лос-Анджелесе, Сиэтле, Нью-Йорке, Бостоне и даже в Армении [20:49].

Тухин называет Baseten «миссионерской компанией» [26:58]. Если стартап добьется успеха, в ближайшее десятилетие стоимость внедрения ML значительно снизится, циклы итераций ускорятся, а сотрудничество между разными ролями в команде станет более эффективным [27:11]. Это приведет к тому, что все больше бизнесов будут видеть реальную отдачу от инвестиций в машинное обучение и увеличивать свои вложения в эту сферу.