Эволюция тестирования AI-агентов: Опыт Braintrust 0:00
Оценка качества (evals) в сфере разработки AI-решений за последние годы претерпела значительные изменения в методологии, хотя сама дисциплина остается фундаментальной. Анкар Гоял, основатель и CEO компании Braintrust, отмечает, что качественное тестирование — это ключевой драйвер создания надежного AI-программного обеспечения, который останется актуальным еще долгие годы.
🛠 От инструментов к подходу: история Braintrust 1:31
История создания Braintrust берет начало в компании Impira, где Анкар столкнулся с классической проблемой: улучшение системы для одного типа данных (например, инвойсов) приводило к деградации результатов для другого (банковских выписок). Попытки использовать чисто академический подход к бенчмаркам не давали понимания того, как система поведет себя в руках реальных пользователей.
После приобретения Impira компанией Figma, Анкар возглавил AI-команду и столкнулся с аналогичными вызовами при работе с LLM. Выяснилось, что проблема повсеместна, и она стала основой для создания Braintrust — платформы, помогающей компаниям (среди которых Zapier, Notion, Airtable) внедрять AI в продукты на основе реальных данных.
🤖 Архитектура агентных систем 5:52
Вопреки распространенному мнению, Гоял утверждает, что агентные системы — это естественная эволюция программного обеспечения, которая делает архитектуру даже проще, чем у предшествующих поколений.
- ** prevailing architecture:** Большинство современных агентов (включая Deep Research и Claude Code) по сути являются циклом
forс использованием инструментов. - Упрощение: Если ранее разработчики создавали сложные графы («ядерные реакторы»), то сегодня стандартом становится простой системный промпт, окруженный инструментами, что облегчает как разработку, так и тестирование.
📊 Стратегия оценки агентов 7:36
Для эффективного тестирования агентов Braintrust рекомендует разделять проверки на два ключевых типа:
- End-to-end evals: Аналог интеграционного тестирования в традиционной разработке. Агенту дается реальный пользовательский запрос, он проходит полный цикл выполнения задач, и оценивается итоговый результат.
- Пошаговая оценка (Tracing): Капсулирование и анализ отдельных этапов взаимодействия. Если агент совершает ошибку в поиске по документации, именно пошаговый анализ позволяет изолировать причину — плохой запрос, нехватка контекста или сбой в базе данных.
По мнению Гояла, работа с этими двумя типами тестов в связке позволяет планомерно улучшать систему: даже если улучшение отдельного шага не дает мгновенного скачка в общем результате, это может указывать на то, что общий тест слишком хрупок или не охватывает важный граничный случай.
🎯 Роль человеческой интуиции и метрик 13:40
Главный посыл заключается в том, что оценки (evals) — это не бенчмарки для сравнения с другими. Это инструмент для приоритизации времени инженеров.
- Человек в цикле: Evals — это способ примирить то, что выдает модель, с тем, что ожидает человек. Если результаты ухудшились, необходимо вручную проверить «регресс» и понять, является ли проблема в агенте или в самой функции оценки (например, метрика Левенштейна может штрафовать за синонимы, которые для бизнеса эквивалентны).
- Качество улучшений: К улучшениям стоит относиться с такой же скептичностью, как и к регрессам. Если система «улучшилась», но вы не понимаете почему, — это сигнал для пересмотра вашей функции оценки.
⚖️ LLM как судья: за и против 23:38
Использование LLM в качестве «судьи» (LLM as a judge) требует особого подхода:
- Уточнение критериев: Эффективность такого судьи зависит от навыков разработчика как менеджера продукта (PM). Чем точнее и детальнее сформулированы критерии в промпте-судье, тем лучше результат.
- Детектор аномалий: Не стоит полагаться на LLM как на единственный источник истины. Лучше использовать комбинацию эвристических методов и LLM-судьи для поиска аномалий, которые человек-эксперт затем проверит вручную.
🏢 Организация процесса и будущее платформы 30:14
Лучшие команды (например, RAMP) проходят путь от выделенной AI-команды до платформенной модели, где инфраструктура для тестирования доступна каждому инженеру. Анкар рекомендует внедрять логирование прямо в AI-шлюз (gateway), чтобы данные для будущих оценок накапливались автоматически по мере работы продукта.
В будущем, по прогнозам Гояла, процесс тестирования станет еще более автоматизированным. Модели смогут самостоятельно предлагать и даже внедрять улучшения, основываясь на результатах тестов, что радикально сократит цикл от обнаружения проблемы до ее исправления.