Анкар Гоял (Braintrust) о том, как правильно оценивать AI-агентов

Эволюция тестирования AI-агентов: Опыт Braintrust 0:00

Оценка качества (evals) в сфере разработки AI-решений за последние годы претерпела значительные изменения в методологии, хотя сама дисциплина остается фундаментальной. Анкар Гоял, основатель и CEO компании Braintrust, отмечает, что качественное тестирование — это ключевой драйвер создания надежного AI-программного обеспечения, который останется актуальным еще долгие годы.

🛠 От инструментов к подходу: история Braintrust 1:31

История создания Braintrust берет начало в компании Impira, где Анкар столкнулся с классической проблемой: улучшение системы для одного типа данных (например, инвойсов) приводило к деградации результатов для другого (банковских выписок). Попытки использовать чисто академический подход к бенчмаркам не давали понимания того, как система поведет себя в руках реальных пользователей.

После приобретения Impira компанией Figma, Анкар возглавил AI-команду и столкнулся с аналогичными вызовами при работе с LLM. Выяснилось, что проблема повсеместна, и она стала основой для создания Braintrust — платформы, помогающей компаниям (среди которых Zapier, Notion, Airtable) внедрять AI в продукты на основе реальных данных.

🤖 Архитектура агентных систем 5:52

Вопреки распространенному мнению, Гоял утверждает, что агентные системы — это естественная эволюция программного обеспечения, которая делает архитектуру даже проще, чем у предшествующих поколений.

** prevailing architecture:** Большинство современных агентов (включая Deep Research и Claude Code) по сути являются циклом for с использованием инструментов.
Упрощение: Если ранее разработчики создавали сложные графы («ядерные реакторы»), то сегодня стандартом становится простой системный промпт, окруженный инструментами, что облегчает как разработку, так и тестирование.

📊 Стратегия оценки агентов 7:36

Для эффективного тестирования агентов Braintrust рекомендует разделять проверки на два ключевых типа:

End-to-end evals: Аналог интеграционного тестирования в традиционной разработке. Агенту дается реальный пользовательский запрос, он проходит полный цикл выполнения задач, и оценивается итоговый результат.
Пошаговая оценка (Tracing): Капсулирование и анализ отдельных этапов взаимодействия. Если агент совершает ошибку в поиске по документации, именно пошаговый анализ позволяет изолировать причину — плохой запрос, нехватка контекста или сбой в базе данных.

По мнению Гояла, работа с этими двумя типами тестов в связке позволяет планомерно улучшать систему: даже если улучшение отдельного шага не дает мгновенного скачка в общем результате, это может указывать на то, что общий тест слишком хрупок или не охватывает важный граничный случай.

🎯 Роль человеческой интуиции и метрик 13:40

Главный посыл заключается в том, что оценки (evals) — это не бенчмарки для сравнения с другими. Это инструмент для приоритизации времени инженеров.

Человек в цикле: Evals — это способ примирить то, что выдает модель, с тем, что ожидает человек. Если результаты ухудшились, необходимо вручную проверить «регресс» и понять, является ли проблема в агенте или в самой функции оценки (например, метрика Левенштейна может штрафовать за синонимы, которые для бизнеса эквивалентны).
Качество улучшений: К улучшениям стоит относиться с такой же скептичностью, как и к регрессам. Если система «улучшилась», но вы не понимаете почему, — это сигнал для пересмотра вашей функции оценки.

⚖️ LLM как судья: за и против 23:38

Использование LLM в качестве «судьи» (LLM as a judge) требует особого подхода:

Уточнение критериев: Эффективность такого судьи зависит от навыков разработчика как менеджера продукта (PM). Чем точнее и детальнее сформулированы критерии в промпте-судье, тем лучше результат.
Детектор аномалий: Не стоит полагаться на LLM как на единственный источник истины. Лучше использовать комбинацию эвристических методов и LLM-судьи для поиска аномалий, которые человек-эксперт затем проверит вручную.

🏢 Организация процесса и будущее платформы 30:14

Лучшие команды (например, RAMP) проходят путь от выделенной AI-команды до платформенной модели, где инфраструктура для тестирования доступна каждому инженеру. Анкар рекомендует внедрять логирование прямо в AI-шлюз (gateway), чтобы данные для будущих оценок накапливались автоматически по мере работы продукта.

В будущем, по прогнозам Гояла, процесс тестирования станет еще более автоматизированным. Модели смогут самостоятельно предлагать и даже внедрять улучшения, основываясь на результатах тестов, что радикально сократит цикл от обнаружения проблемы до ее исправления.