Будущее ИИ-разработки: почему оценка моделей (evals) становится критическим ядром продукта 0:00
В индустрии искусственного интеллекта происходит фундаментальный сдвиг: фокус смещается с простых экспериментов с промптами на построение надежных, предсказуемых систем. Анкур Гоял, основатель и CEO компании Braintrust, в беседе с представителем Greylock объясняет, почему именно систематическая оценка (evals) является единственным способом создать работающий ИИ-продукт, а не просто «игрушку». В этом материале мы разберем философию продуктового развития Braintrust, культуру «одержимости клиентом» и то, как компания планирует упрощать разработку ИИ, делегируя часть задач самим нейросетям.
🧩 Evals как фундамент инженерного подхода 3:17
Анкур Гоял утверждает, что при разработке ИИ-продуктов создание эвалов (evals) должно стоять в центре процесса. Поскольку поведение больших языковых моделей (LLM) зачастую непредсказуемо, разработчик не может контролировать сам процесс «мышления» модели, но может контролировать ожидания от результата.
Основные тезисы подхода Braintrust к эвалам:
- Определение «что», а не «как»: В отличие от традиционного программирования, ИИ-разработка заключается в описании желаемого поведения модели. Evals служат инструментом для верификации этого поведения.
- Устранение «аналитического паралича»: Многие стартапы тратят время на бесконечные раздумья о выборе модели (OpenAI, Anthropic или open-source). Использование платформы, которая позволяет абстрагироваться от конкретной модели и сосредоточиться на тестах, дает разработчикам необходимую гибкость.
- Инвестиция в долгосрочность: Качественно проработанные эвалы остаются ценным активом даже при смене моделей или корректировке промптов. Это превращает хаотичные «правки промптов» в настоящий инженерный процесс.
🛡️ Braintrust vs. DataDog: в чем разница? 14:15
Хотя Braintrust часто сравнивают с DataDog для ИИ-нагрузок, Анкур Гоял считает это сравнение отчасти близоруким.
- Разные цели: Компании инвестируют в DataDog ради обеспечения аптайма (работоспособности), тогда как Braintrust нужен для достижения высокого уровня качества.
- Специфика данных: Системы Braintrust спроектированы для работы со специфическими «ИИ-форматами» данных: огромными объемами текста и сложными JSON-структурами, которые традиционные базы данных обрабатывают неэффективно.
- Инфраструктура: Платформа справляется с задачами, которые критичны для ИИ, но сложны технически: например, оркестрация длительных эвалов, которые могут идти несколько дней, и визуализация накопленных данных.
🤝 Культура «одержимости клиентом» 8:11
Успех Braintrust во многом объясняется фокусом на узкую группу компаний с высокими требованиями (например, Stripe, Instacart, AirTable).
- Отказ от спринтов: Анкур Гоял признается, что не любит спринт-планирование, так как оно связывает идентичность инженера с жестким планом. Вместо этого в компании культивируется подход: если у клиента возникла критическая проблема, инженер должен немедленно бросить текущие задачи и помочь.
- Роль экспертов: Сейчас платформой пользуется всё больше людей, не являющихся инженерами — например, врачи или юристы, которые лучше понимают специфику данных в своих областях. Это делает продукт Braintrust инструментом кросс-функциональной работы, подобно тому, как Figma стала платформой не только для дизайнеров.
📈 Масштабирование и взгляд в будущее 21:53
Масштабирование команды в Braintrust происходит без сложной иерархии. Гоял отмечает, что отказ от индивидуальных встреч («one-on-ones») в пользу более динамичных процессов помог компании сохранять гибкость при быстром росте.
Что касается будущего, Анкур Гоял выделяет следующие тренды:
- Упрощение: ИИ-продукты будут становиться всё более простыми и доступными для массового использования.
- Self-improvement: С выходом новых поколений моделей, ИИ начинает эффективно анализировать собственную работу.
- Автоматизация внутри Braintrust: Платформа уже внедрила функцию Loop, которая автоматически улучшает промпты и ищет интересные кейсы в логах. В будущем это может привести к тому, что некоторые текущие функции продукта станут избыточными и будут удалены.