Анкар Гоял (Braintrust) о том, как правильно оценивать AI-агентов

Greylock 939 57 мин 3 мин 16.09.2025
Главное

Эволюция тестирования AI-агентов: Опыт Braintrust 0:00

Оценка качества (evals) в сфере разработки AI-решений за последние годы претерпела значительные изменения в методологии, хотя сама дисциплина остается фундаментальной. Анкар Гоял, основатель и CEO компании Braintrust, отмечает, что качественное тестирование — это ключевой драйвер создания надежного AI-программного обеспечения, который останется актуальным еще долгие годы.

🛠 От инструментов к подходу: история Braintrust 1:31

История создания Braintrust берет начало в компании Impira, где Анкар столкнулся с классической проблемой: улучшение системы для одного типа данных (например, инвойсов) приводило к деградации результатов для другого (банковских выписок). Попытки использовать чисто академический подход к бенчмаркам не давали понимания того, как система поведет себя в руках реальных пользователей.

После приобретения Impira компанией Figma, Анкар возглавил AI-команду и столкнулся с аналогичными вызовами при работе с LLM. Выяснилось, что проблема повсеместна, и она стала основой для создания Braintrust — платформы, помогающей компаниям (среди которых Zapier, Notion, Airtable) внедрять AI в продукты на основе реальных данных.

🤖 Архитектура агентных систем 5:52

Вопреки распространенному мнению, Гоял утверждает, что агентные системы — это естественная эволюция программного обеспечения, которая делает архитектуру даже проще, чем у предшествующих поколений.

📊 Стратегия оценки агентов 7:36

Для эффективного тестирования агентов Braintrust рекомендует разделять проверки на два ключевых типа:

  1. End-to-end evals: Аналог интеграционного тестирования в традиционной разработке. Агенту дается реальный пользовательский запрос, он проходит полный цикл выполнения задач, и оценивается итоговый результат.
  2. Пошаговая оценка (Tracing): Капсулирование и анализ отдельных этапов взаимодействия. Если агент совершает ошибку в поиске по документации, именно пошаговый анализ позволяет изолировать причину — плохой запрос, нехватка контекста или сбой в базе данных.

По мнению Гояла, работа с этими двумя типами тестов в связке позволяет планомерно улучшать систему: даже если улучшение отдельного шага не дает мгновенного скачка в общем результате, это может указывать на то, что общий тест слишком хрупок или не охватывает важный граничный случай.

🎯 Роль человеческой интуиции и метрик 13:40

Главный посыл заключается в том, что оценки (evals) — это не бенчмарки для сравнения с другими. Это инструмент для приоритизации времени инженеров.

⚖️ LLM как судья: за и против 23:38

Использование LLM в качестве «судьи» (LLM as a judge) требует особого подхода:

🏢 Организация процесса и будущее платформы 30:14

Лучшие команды (например, RAMP) проходят путь от выделенной AI-команды до платформенной модели, где инфраструктура для тестирования доступна каждому инженеру. Анкар рекомендует внедрять логирование прямо в AI-шлюз (gateway), чтобы данные для будущих оценок накапливались автоматически по мере работы продукта.

В будущем, по прогнозам Гояла, процесс тестирования станет еще более автоматизированным. Модели смогут самостоятельно предлагать и даже внедрять улучшения, основываясь на результатах тестов, что радикально сократит цикл от обнаружения проблемы до ее исправления.

💬 Цитаты

«Самое большое заблуждение об оценках заключается в том, что они являются бенчмарками.»

Анкар Гоял 16:13

«Если ваш продукт не имеет ничего уникального, то, возможно, его и не должно существовать — он должен быть частью ChatGPT.»

Анкар Гоял 22:04
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Evals (оценки)
Процесс сопоставления выводов AI-системы с ожидаемыми результатами для контроля качества.
LLM as a judge
Использование языковой модели для автоматической оценки качества работы другой модели или агента.
Agentic software
Программные системы, способные автономно выполнять цепочку действий для достижения цели.
AI Gateway
Слой инфраструктуры между приложением и моделями для управления политиками, маршрутизацией и логированием.
📊 Цифры
🗓 Хронология
  1. 2016 Анкар Гоял начинает профессионально заниматься оценкой AI-моделей.
  2. Октябрь (прошлого года) Разработка собственной базы данных Braintrust для работы с большими данными LLM.
  3. Январь (текущего года) Запуск новой базы данных для Notion.
  4. Февраль (текущего года) Релиз базы данных Braintrust для всех пользователей.
⚖️ Другая сторона
Искусственный интеллект Braintrust AI-агенты LLM as a judge тестирование ПО