# Кризис оценки ИИ: почему современные бенчмарки лгут?

Источник: https://www.youtube.com/watch?v=x-R5l2HsXqM
Канал: Stanford Online
Опубликовано: 04.06.2025

---

Курс [Stanford CS336](https://cs336.stanford.edu/), посвященный созданию языковых моделей с нуля, затронул одну из самых проблемных областей современного ИИ — оценку производительности (Evaluation). В двенадцатой лекции эксперты из Стэнфорда разбирают, почему классические бенчмарки перестают работать, как «взламывают» рейтинги и почему индустрия столкнулась с настоящим «кризисом оценки».

## 📉 Кризис оценки и иллюзия прогресса
[[JUMP:0:05]]

На первый взгляд оценка модели кажется чисто механическим процессом: подать запрос (prompt), получить ответ, вычислить метрику и вывести средний балл [5:01]. Однако на практике это превращается в сложную философскую и техническую задачу. По мнению лектора, индустрия сейчас находится в состоянии «кризиса оценки» (evaluation crisis), термин для которого предложил исследователь Андрей Карпати [3:41].

Суть кризиса заключается в следующем:

*   **Насыщение:** Популярные бенчмарки, такие как MMLU, «выбивают» уже более 90%, что не оставляет места для фиксации реального прогресса [4:08].
*   **Геймификация:** Разработчики моделей подсознательно или намеренно оптимизируют системы под конкретные тесты, что делает цифры в статьях бессмысленными (закон Гудхарта) [5:41].
*   **Неопределенность цели:** Нет «единого истинного» способа оценки — всё зависит от того, является ли конечной целью покупка модели компанией, научный прогресс в области AGI или проверка безопасности политиками [6:09].

## 🧪 Перплексия: возвращение к истокам
[[JUMP:16:19]]

Перплексия (perplexity) — это базовая метрика, измеряющая, насколько хорошо модель предсказывает следующий токен в тестовом наборе данных [16:33]. Несмотря на то что в последние годы индустрия переключилась на оценку точности выполнения задач, лектор настаивает на важности перплексии:

*   **Плавность:** В отличие от дискретной точности (правильно/неправильно), перплексия дает непрерывную кривую, что критически важно для законов масштабирования (scaling laws) [23:48].
*   **Универсальность:** Сторонники «максимализма перплексии» считают, что минимизация этой метрики эквивалентна приближению к истинному распределению данных, а значит — к решению всех задач в пределе (путь к AGI) [28:00].

Однако у перплексии есть «грязный секрет»: ее легко исказить из-за ошибок в коде. Если API модели выдает вероятности, которые в сумме не дают единицу (например, из-за бага выдают 0.8 для каждого токена), цифры будут выглядеть блестяще, но результат будет технически невалидным [26:13].

## 🎓 Эволюция знаний: от школьных тестов до уровня PhD
[[JUMP:32:20]]

Статья разбирает иерархию бенчмарков, которые становились всё сложнее по мере развития моделей:

1.  **MMLU (2020):** 57 предметов, множественный выбор. Изначально создавался для оценки базовых моделей (base models) до появления инструктивного обучения. Сейчас считается «пройденным этапом» [33:18].
2.  **MMLU-Pro:** Усложненная версия, где количество вариантов ответа увеличили с 4 до 10, чтобы исключить случайное угадывание [41:04].
3.  **GPQA:** Набор вопросов уровня аспирантуры (PhD), которые эксперты в MIT оценивают как «Google-proof» — ответ на них крайне сложно найти в поиске за 30 минут [42:43].
4.  **Humanity's Last Exam (HLE):** Один из самых свежих и сложных тестов, включающий мультимодальные задачи, на которых текущий лидер индустрии (модель O3) набирает пока лишь около 20% [49:04].

## 🤖 Агенты и реальный мир: SWE-bench и другие
[[JUMP:1:00:13]]

Современные ИИ-системы — это не просто чат-боты, а агенты. Для их оценки используются динамические среды:

*   **SWE-bench:** Модель должна изучить репозиторий на GitHub, найти ошибку и отправить Pull Request, проходящий модульные тесты [1:01:09].
*   **CyBench:** Проверка навыков кибербезопасности (Capture the Flag), где агент должен взломать сервер и достать секретный ключ [1:01:39].
*   **MLE-bench:** 75 соревнований Kaggle, где ИИ заменяет специалиста по Data Science: от очистки данных до подбора гиперпараметров [1:03:04].

## 🛡️ Безопасность и проблема «двойного назначения»
[[JUMP:1:06:11]]

Оценка безопасности (safety) остается наиболее политизированной и контекстуальной областью. Лектор выделяет несколько ключевых проблем:

*   **Тюрьма для ИИ (Jailbreaking):** Спорное утверждение о том, что любую защиту можно обойти с помощью оптимизированных промптов (gibberish prompts). Несмотря на то что план «уничтожения человечества» от ChatGPT вряд ли реализуем, сам факт обхода защиты является риском [1:09:07].
*   **Парадокс отказа:** Модель может занять первое место в рейтинге безопасности, если будет просто отвечать «Я не знаю» на любой вопрос [1:10:03].
*   **Двойное назначение:** Агенты, способные находить уязвимости в коде, могут использоваться как для защиты (тестирование на проникновение), так и для атак. Это делает грань между «способностями» и «безопасностью» крайне тонкой [1:13:30].

## 🕵️ Проблема загрязнения данных (Contamination)
[[JUMP:1:17:10]]

Огромная проблема современной оценки — попадание тестовых вопросов в обучающую выборку (train-test overlap). Поскольку модели обучаются на всем интернете, они могли видеть ответы на MMLU или GPQA во время обучения [1:17:39].

Лектор предлагает два пути решения:

1.  **Детективный:** Пытаться вычислить факт обучения по специфическим ответам модели или порядку перечисления вариантов [1:17:52].
2.  **Нормативный:** Внедрять в сообщество стандарты обязательной отчетности о проверке на загрязнение, аналогично доверительным интервалам в статистике [1:18:20].

В завершение лекции подчеркивается, что сегодня мы оцениваем не «методы» (архитектуры), а «системы» в целом. Это сдвигает фокус с чистого научного эксперимента в сторону оценки пользовательского опыта и прикладной пользы [1:19:40].