# Анкар Гоял (Braintrust) о том, как правильно оценивать AI-агентов

Источник: https://www.youtube.com/watch?v=J0NdPARq5pk
Канал: Greylock
Опубликовано: 16.09.2025

---

## Эволюция тестирования AI-агентов: Опыт Braintrust

[[JUMP:0:00]]

Оценка качества (evals) в сфере разработки AI-решений за последние годы претерпела значительные изменения в методологии, хотя сама дисциплина остается фундаментальной. Анкар Гоял, основатель и CEO компании Braintrust, отмечает, что качественное тестирование — это ключевой драйвер создания надежного AI-программного обеспечения, который останется актуальным еще долгие годы.

### 🛠 От инструментов к подходу: история Braintrust
[[JUMP:1:31]]

История создания Braintrust берет начало в компании Impira, где Анкар столкнулся с классической проблемой: улучшение системы для одного типа данных (например, инвойсов) приводило к деградации результатов для другого (банковских выписок). Попытки использовать чисто академический подход к бенчмаркам не давали понимания того, как система поведет себя в руках реальных пользователей.

После приобретения Impira компанией Figma, Анкар возглавил AI-команду и столкнулся с аналогичными вызовами при работе с LLM. Выяснилось, что проблема повсеместна, и она стала основой для создания Braintrust — платформы, помогающей компаниям (среди которых Zapier, Notion, Airtable) внедрять AI в продукты на основе реальных данных.

### 🤖 Архитектура агентных систем
[[JUMP:5:52]]

Вопреки распространенному мнению, Гоял утверждает, что агентные системы — это естественная эволюция программного обеспечения, которая делает архитектуру даже проще, чем у предшествующих поколений.

* ** prevailing architecture:** Большинство современных агентов (включая Deep Research и Claude Code) по сути являются циклом `for` с использованием инструментов.
* **Упрощение:** Если ранее разработчики создавали сложные графы («ядерные реакторы»), то сегодня стандартом становится простой системный промпт, окруженный инструментами, что облегчает как разработку, так и тестирование.

### 📊 Стратегия оценки агентов
[[JUMP:7:36]]

Для эффективного тестирования агентов Braintrust рекомендует разделять проверки на два ключевых типа:

1.  **End-to-end evals:** Аналог интеграционного тестирования в традиционной разработке. Агенту дается реальный пользовательский запрос, он проходит полный цикл выполнения задач, и оценивается итоговый результат.
2.  **Пошаговая оценка (Tracing):** Капсулирование и анализ отдельных этапов взаимодействия. Если агент совершает ошибку в поиске по документации, именно пошаговый анализ позволяет изолировать причину — плохой запрос, нехватка контекста или сбой в базе данных.

По мнению Гояла, работа с этими двумя типами тестов в связке позволяет планомерно улучшать систему: даже если улучшение отдельного шага не дает мгновенного скачка в общем результате, это может указывать на то, что общий тест слишком хрупок или не охватывает важный граничный случай.

### 🎯 Роль человеческой интуиции и метрик
[[JUMP:13:40]]

Главный посыл заключается в том, что оценки (evals) — это не бенчмарки для сравнения с другими. Это инструмент для приоритизации времени инженеров.

* **Человек в цикле:** Evals — это способ примирить то, что выдает модель, с тем, что ожидает человек. Если результаты ухудшились, необходимо вручную проверить «регресс» и понять, является ли проблема в агенте или в самой функции оценки (например, метрика Левенштейна может штрафовать за синонимы, которые для бизнеса эквивалентны).
* **Качество улучшений:** К улучшениям стоит относиться с такой же скептичностью, как и к регрессам. Если система «улучшилась», но вы не понимаете почему, — это сигнал для пересмотра вашей функции оценки.

### ⚖️ LLM как судья: за и против
[[JUMP:23:38]]

Использование LLM в качестве «судьи» (LLM as a judge) требует особого подхода:

* **Уточнение критериев:** Эффективность такого судьи зависит от навыков разработчика как менеджера продукта (PM). Чем точнее и детальнее сформулированы критерии в промпте-судье, тем лучше результат.
* **Детектор аномалий:** Не стоит полагаться на LLM как на единственный источник истины. Лучше использовать комбинацию эвристических методов и LLM-судьи для поиска аномалий, которые человек-эксперт затем проверит вручную.

### 🏢 Организация процесса и будущее платформы
[[JUMP:30:14]]

Лучшие команды (например, RAMP) проходят путь от выделенной AI-команды до платформенной модели, где инфраструктура для тестирования доступна каждому инженеру. Анкар рекомендует внедрять логирование прямо в AI-шлюз (gateway), чтобы данные для будущих оценок накапливались автоматически по мере работы продукта.

В будущем, по прогнозам Гояла, процесс тестирования станет еще более автоматизированным. Модели смогут самостоятельно предлагать и даже внедрять улучшения, основываясь на результатах тестов, что радикально сократит цикл от обнаружения проблемы до ее исправления.