Афшин и Шервин об эволюции оценки LLM: от человеческой разметки до агентов-симуляторов

Stanford Online 53,1 тыс. 1 ч 49 мин 6 мин 02.12.2025
Главное

Стэндфордский курс CME295 продолжает погружение в мир больших языковых моделей, посвящая восьмую лекцию критически важной теме — оценке (evaluation) качества ответов LLM. Лекторы Афшин (Afshine) и Шервин (Shervine) подробно разбирают методы измерения производительности: от классических программных метрик и человеческой разметки до современных подходов «LLM-как-судья» (LLM-as-a-Judge) и специализированных бенчмарков для ИИ-агентов.

🎯 Проблема субъективности и человеческая разметка 4:40

Оценка LLM — сложная задача, так как эти модели генерируют текст в свободной форме: от естественного языка до математических доказательств и программного кода . Афшин отмечает, что идеальным сценарием была бы оценка каждого ответа человеком, но это крайне дорого и медленно .

Главной проблемой человеческой оценки является субъективность. Афшин приводит пример: если спросить LLM о подарке на день рождения и получить ответ «Плюшевый мишка — это всегда мило», один разметчик сочтет это полезным, а другой — нет, так как не указаны детали . Для решения этой проблемы используются метрики согласия разметчиков:

По словам Афшина, если уровень согласия низкий, компании проводят «сессии выравнивания» (agreement sessions), чтобы уточнить инструкции для разметчиков и сделать оценки последовательными .

📏 Программные метрики: BLEU, METEOR и ROUGE 19:04

Чтобы избежать постоянных трат на людей, используются метрики на основе правил, которые сравнивают ответ модели с «эталоном» (reference), написанным экспертом .

Основные инструменты:

Афшин утверждает, что у этих методов есть два фундаментальных недостатка: они не допускают стилистических вариаций (синонимы часто игнорируются) и плохо коррелируют с реальным человеческим восприятием качества .

⚖️ LLM-as-a-Judge: модель оценивает модель 28:16

Современным стандартом становится использование мощной модели (например, GPT-4o) для оценки ответов более слабых моделей. Этот подход называется LLM-as-a-Judge .

Ключевые особенности метода:

  1. Наличие обоснования (Rationale): в отличие от формул, LLM может сначала написать текст с объяснением, почему ответ хорош или плох, а только потом поставить оценку .
  2. Цепочка рассуждений: требование сначала выдать обоснование, а затем балл — это трюк, который эмпирически улучшает качество самой оценки, аналогично технике Chain of Thought .
  3. Структурированный вывод: для автоматизации парсинга результатов Афшин рекомендует использовать режим Structured Outputs (в API OpenAI или Gemini), передавая JSON-схему с полями rationale и score .

Существует две основные схемы судейства: Pointwise (оценка одного ответа по шкале) и Pairwise (сравнение двух ответов — какой лучше) .

Критические ошибки «судейских» моделей 38:40

Афшин выделяет три типа когнитивных искажений, которым подвержены LLM-судьи:

🔍 Оценка фактологичности (Factuality) 54:06

Фактологичность нельзя оценивать бинарно («да/нет»), так как в тексте может быть пять верных утверждений и одно ложное. Афшин описывает современный многоступенчатый процесс оценки :

  1. Извлечение атомарных фактов: LLM разбивает длинный ответ на список отдельных утверждений .
  2. Проверка каждого факта: каждое утверждение проверяется через RAG (поиск по базе знаний) или веб-поиск .
  3. Взвешенная агрегация: каждому факту присваивается вес важности ($\alpha_i$). Например, ошибка в дате рождения президента важнее, чем ошибка в цвете его галстука. Итоговый балл рассчитывается как средневзвешенное .

🤖 Оценка ИИ-агентов и инструментов (Tool Use) 1:00:11

Шервин (Shervine) переходит к специфике оценки агентов, работающих в цикле Observe-Plan-Act . Здесь ошибки могут возникать на каждом этапе вызова инструментов.

Типичные режимы отказа (failure modes):

Шервин дает важный совет разработчикам: всегда возвращайте пустой JSON {}, если инструмент не нашел результатов, вместо значения None. Для модели пустой объект — это содержательный сигнал об отсутствии данных, а None может быть интерпретирован как системная ошибка .

📊 Глобальные бенчмарки: что они измеряют? 1:23:30

Шервин разбирает основные категории тестов, которые мы видим в отчетах OpenAI, Google и Anthropic.

🧠 Знания и рассуждения

💻 Код и агенты

🛡️ Безопасность

📈 Прагматичный подход к выбору моделей 1:46:14

В завершение лекции Шервин отмечает, что ни один бенчмарк не дает полной картины. Он вводит понятие Парето-фронтира (Pareto Frontier): зависимости качества от цены и скорости .

Его личные рекомендации:

Лекторы предупреждают о «законе Гудхарта»: как только метрика становится целью, она перестает быть хорошей метрикой . Модели могут быть переобучены под бенчмарки (data contamination), поэтому лучшим тестом всегда остается проверка на собственных специфических данных проекта .

💬 Цитаты

«Когда метрика становится целью, она перестает быть хорошей метрикой.»

«Если мы не знаем, как измерить производительность нашей LLM, мы не знаем, что именно нужно улучшать.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
LLM-as-a-Judge
Использование мощной языковой модели для оценки качества ответов других моделей.
RAG
Retrieval-Augmented Generation — метод обогащения промпта данными из внешних источников.
Zero-shot
Способность модели решать задачу без предварительных примеров в промпте.
Pareto Frontier
Линия на графике, отображающая лучшие доступные варианты при балансе двух характеристик, например цены и качества.
Data Contamination
Попадание тестовых данных бенчмарка в обучающую выборку модели, что искажает результаты оценки.
📊 Цифры
🗓 Хронология
  1. 2025 Проведение лекции в рамках курса CME295 в Стэндфордском университете.
  2. Февраль 2025 Запуск новой версии модели Gemini и публикация отчета о её производительности.
⚖️ Другая сторона
Искусственный интеллект LLM-as-a-Judge MMLU RAG SWE-bench Stanford Online