# Анкур Гоял (Braintrust): «Evals — это единственный способ создать работающий ИИ»

Источник: https://www.youtube.com/watch?v=U5OM6MRI9mw
Канал: Greylock
Опубликовано: 24.02.2026

---

## Будущее ИИ-разработки: почему оценка моделей (evals) становится критическим ядром продукта

[[JUMP:0:00]]

В индустрии искусственного интеллекта происходит фундаментальный сдвиг: фокус смещается с простых экспериментов с промптами на построение надежных, предсказуемых систем. Анкур Гоял, основатель и CEO компании **Braintrust**, в беседе с представителем **Greylock** объясняет, почему именно систематическая оценка (evals) является единственным способом создать работающий ИИ-продукт, а не просто «игрушку». В этом материале мы разберем философию продуктового развития Braintrust, культуру «одержимости клиентом» и то, как компания планирует упрощать разработку ИИ, делегируя часть задач самим нейросетям.

### 🧩 Evals как фундамент инженерного подхода
[[JUMP:3:17]]

Анкур Гоял утверждает, что при разработке ИИ-продуктов создание эвалов (evals) должно стоять в центре процесса. Поскольку поведение больших языковых моделей (LLM) зачастую непредсказуемо, разработчик не может контролировать сам процесс «мышления» модели, но может контролировать ожидания от результата.

Основные тезисы подхода Braintrust к эвалам:

* **Определение «что», а не «как»:** В отличие от традиционного программирования, ИИ-разработка заключается в описании желаемого поведения модели. Evals служат инструментом для верификации этого поведения.
* **Устранение «аналитического паралича»:** Многие стартапы тратят время на бесконечные раздумья о выборе модели (OpenAI, Anthropic или open-source). Использование платформы, которая позволяет абстрагироваться от конкретной модели и сосредоточиться на тестах, дает разработчикам необходимую гибкость.
* **Инвестиция в долгосрочность:** Качественно проработанные эвалы остаются ценным активом даже при смене моделей или корректировке промптов. Это превращает хаотичные «правки промптов» в настоящий инженерный процесс.

### 🛡️ Braintrust vs. DataDog: в чем разница?
[[JUMP:14:15]]

Хотя Braintrust часто сравнивают с DataDog для ИИ-нагрузок, Анкур Гоял считает это сравнение отчасти близоруким. 

* **Разные цели:** Компании инвестируют в DataDog ради обеспечения **аптайма** (работоспособности), тогда как Braintrust нужен для достижения высокого уровня **качества**.
* **Специфика данных:** Системы Braintrust спроектированы для работы со специфическими «ИИ-форматами» данных: огромными объемами текста и сложными JSON-структурами, которые традиционные базы данных обрабатывают неэффективно.
* **Инфраструктура:** Платформа справляется с задачами, которые критичны для ИИ, но сложны технически: например, оркестрация длительных эвалов, которые могут идти несколько дней, и визуализация накопленных данных.

### 🤝 Культура «одержимости клиентом»
[[JUMP:8:11]]

Успех Braintrust во многом объясняется фокусом на узкую группу компаний с высокими требованиями (например, **Stripe**, **Instacart**, **AirTable**).

* **Отказ от спринтов:** Анкур Гоял признается, что не любит спринт-планирование, так как оно связывает идентичность инженера с жестким планом. Вместо этого в компании культивируется подход: если у клиента возникла критическая проблема, инженер должен немедленно бросить текущие задачи и помочь.
* **Роль экспертов:** Сейчас платформой пользуется всё больше людей, не являющихся инженерами — например, врачи или юристы, которые лучше понимают специфику данных в своих областях. Это делает продукт Braintrust инструментом кросс-функциональной работы, подобно тому, как Figma стала платформой не только для дизайнеров.

### 📈 Масштабирование и взгляд в будущее
[[JUMP:21:53]]

Масштабирование команды в Braintrust происходит без сложной иерархии. Гоял отмечает, что отказ от индивидуальных встреч («one-on-ones») в пользу более динамичных процессов помог компании сохранять гибкость при быстром росте. 

Что касается будущего, Анкур Гоял выделяет следующие тренды:

1.  **Упрощение:** ИИ-продукты будут становиться всё более простыми и доступными для массового использования.
2.  **Self-improvement:** С выходом новых поколений моделей, ИИ начинает эффективно анализировать собственную работу. 
3.  **Автоматизация внутри Braintrust:** Платформа уже внедрила функцию **Loop**, которая автоматически улучшает промпты и ищет интересные кейсы в логах. В будущем это может привести к тому, что некоторые текущие функции продукта станут избыточными и будут удалены.