Анкур Гоял (Braintrust): «Evals — это единственный способ создать работающий ИИ»

Будущее ИИ-разработки: почему оценка моделей (evals) становится критическим ядром продукта 0:00

В индустрии искусственного интеллекта происходит фундаментальный сдвиг: фокус смещается с простых экспериментов с промптами на построение надежных, предсказуемых систем. Анкур Гоял, основатель и CEO компании Braintrust, в беседе с представителем Greylock объясняет, почему именно систематическая оценка (evals) является единственным способом создать работающий ИИ-продукт, а не просто «игрушку». В этом материале мы разберем философию продуктового развития Braintrust, культуру «одержимости клиентом» и то, как компания планирует упрощать разработку ИИ, делегируя часть задач самим нейросетям.

🧩 Evals как фундамент инженерного подхода 3:17

Анкур Гоял утверждает, что при разработке ИИ-продуктов создание эвалов (evals) должно стоять в центре процесса. Поскольку поведение больших языковых моделей (LLM) зачастую непредсказуемо, разработчик не может контролировать сам процесс «мышления» модели, но может контролировать ожидания от результата.

Основные тезисы подхода Braintrust к эвалам:

Определение «что», а не «как»: В отличие от традиционного программирования, ИИ-разработка заключается в описании желаемого поведения модели. Evals служат инструментом для верификации этого поведения.
Устранение «аналитического паралича»: Многие стартапы тратят время на бесконечные раздумья о выборе модели (OpenAI, Anthropic или open-source). Использование платформы, которая позволяет абстрагироваться от конкретной модели и сосредоточиться на тестах, дает разработчикам необходимую гибкость.
Инвестиция в долгосрочность: Качественно проработанные эвалы остаются ценным активом даже при смене моделей или корректировке промптов. Это превращает хаотичные «правки промптов» в настоящий инженерный процесс.

🛡️ Braintrust vs. DataDog: в чем разница? 14:15

Хотя Braintrust часто сравнивают с DataDog для ИИ-нагрузок, Анкур Гоял считает это сравнение отчасти близоруким.

Разные цели: Компании инвестируют в DataDog ради обеспечения аптайма (работоспособности), тогда как Braintrust нужен для достижения высокого уровня качества.
Специфика данных: Системы Braintrust спроектированы для работы со специфическими «ИИ-форматами» данных: огромными объемами текста и сложными JSON-структурами, которые традиционные базы данных обрабатывают неэффективно.
Инфраструктура: Платформа справляется с задачами, которые критичны для ИИ, но сложны технически: например, оркестрация длительных эвалов, которые могут идти несколько дней, и визуализация накопленных данных.

🤝 Культура «одержимости клиентом» 8:11

Успех Braintrust во многом объясняется фокусом на узкую группу компаний с высокими требованиями (например, Stripe, Instacart, AirTable).

Отказ от спринтов: Анкур Гоял признается, что не любит спринт-планирование, так как оно связывает идентичность инженера с жестким планом. Вместо этого в компании культивируется подход: если у клиента возникла критическая проблема, инженер должен немедленно бросить текущие задачи и помочь.
Роль экспертов: Сейчас платформой пользуется всё больше людей, не являющихся инженерами — например, врачи или юристы, которые лучше понимают специфику данных в своих областях. Это делает продукт Braintrust инструментом кросс-функциональной работы, подобно тому, как Figma стала платформой не только для дизайнеров.

📈 Масштабирование и взгляд в будущее 21:53

Масштабирование команды в Braintrust происходит без сложной иерархии. Гоял отмечает, что отказ от индивидуальных встреч («one-on-ones») в пользу более динамичных процессов помог компании сохранять гибкость при быстром росте.

Что касается будущего, Анкур Гоял выделяет следующие тренды:

Упрощение: ИИ-продукты будут становиться всё более простыми и доступными для массового использования.
Self-improvement: С выходом новых поколений моделей, ИИ начинает эффективно анализировать собственную работу.
Автоматизация внутри Braintrust: Платформа уже внедрила функцию Loop, которая автоматически улучшает промпты и ищет интересные кейсы в логах. В будущем это может привести к тому, что некоторые текущие функции продукта станут избыточными и будут удалены.