Кризис оценки ИИ: почему современные бенчмарки лгут?

Курс Stanford CS336, посвященный созданию языковых моделей с нуля, затронул одну из самых проблемных областей современного ИИ — оценку производительности (Evaluation). В двенадцатой лекции эксперты из Стэнфорда разбирают, почему классические бенчмарки перестают работать, как «взламывают» рейтинги и почему индустрия столкнулась с настоящим «кризисом оценки».

📉 Кризис оценки и иллюзия прогресса 0:05

На первый взгляд оценка модели кажется чисто механическим процессом: подать запрос (prompt), получить ответ, вычислить метрику и вывести средний балл . Однако на практике это превращается в сложную философскую и техническую задачу. По мнению лектора, индустрия сейчас находится в состоянии «кризиса оценки» (evaluation crisis), термин для которого предложил исследователь Андрей Карпати .

Суть кризиса заключается в следующем:

Насыщение: Популярные бенчмарки, такие как MMLU, «выбивают» уже более 90%, что не оставляет места для фиксации реального прогресса .
Геймификация: Разработчики моделей подсознательно или намеренно оптимизируют системы под конкретные тесты, что делает цифры в статьях бессмысленными (закон Гудхарта) .
Неопределенность цели: Нет «единого истинного» способа оценки — всё зависит от того, является ли конечной целью покупка модели компанией, научный прогресс в области AGI или проверка безопасности политиками .

🧪 Перплексия: возвращение к истокам 16:19

Перплексия (perplexity) — это базовая метрика, измеряющая, насколько хорошо модель предсказывает следующий токен в тестовом наборе данных . Несмотря на то что в последние годы индустрия переключилась на оценку точности выполнения задач, лектор настаивает на важности перплексии:

Плавность: В отличие от дискретной точности (правильно/неправильно), перплексия дает непрерывную кривую, что критически важно для законов масштабирования (scaling laws) .
Универсальность: Сторонники «максимализма перплексии» считают, что минимизация этой метрики эквивалентна приближению к истинному распределению данных, а значит — к решению всех задач в пределе (путь к AGI) .

Однако у перплексии есть «грязный секрет»: ее легко исказить из-за ошибок в коде. Если API модели выдает вероятности, которые в сумме не дают единицу (например, из-за бага выдают 0.8 для каждого токена), цифры будут выглядеть блестяще, но результат будет технически невалидным .

🎓 Эволюция знаний: от школьных тестов до уровня PhD 32:20

Статья разбирает иерархию бенчмарков, которые становились всё сложнее по мере развития моделей:

MMLU (2020): 57 предметов, множественный выбор. Изначально создавался для оценки базовых моделей (base models) до появления инструктивного обучения. Сейчас считается «пройденным этапом» .
MMLU-Pro: Усложненная версия, где количество вариантов ответа увеличили с 4 до 10, чтобы исключить случайное угадывание .
GPQA: Набор вопросов уровня аспирантуры (PhD), которые эксперты в MIT оценивают как «Google-proof» — ответ на них крайне сложно найти в поиске за 30 минут .
Humanity's Last Exam (HLE): Один из самых свежих и сложных тестов, включающий мультимодальные задачи, на которых текущий лидер индустрии (модель O3) набирает пока лишь около 20% .

🤖 Агенты и реальный мир: SWE-bench и другие 1:00:13

Современные ИИ-системы — это не просто чат-боты, а агенты. Для их оценки используются динамические среды:

SWE-bench: Модель должна изучить репозиторий на GitHub, найти ошибку и отправить Pull Request, проходящий модульные тесты .
CyBench: Проверка навыков кибербезопасности (Capture the Flag), где агент должен взломать сервер и достать секретный ключ .
MLE-bench: 75 соревнований Kaggle, где ИИ заменяет специалиста по Data Science: от очистки данных до подбора гиперпараметров .

🛡️ Безопасность и проблема «двойного назначения» 1:06:11

Оценка безопасности (safety) остается наиболее политизированной и контекстуальной областью. Лектор выделяет несколько ключевых проблем:

Тюрьма для ИИ (Jailbreaking): Спорное утверждение о том, что любую защиту можно обойти с помощью оптимизированных промптов (gibberish prompts). Несмотря на то что план «уничтожения человечества» от ChatGPT вряд ли реализуем, сам факт обхода защиты является риском .
Парадокс отказа: Модель может занять первое место в рейтинге безопасности, если будет просто отвечать «Я не знаю» на любой вопрос .
Двойное назначение: Агенты, способные находить уязвимости в коде, могут использоваться как для защиты (тестирование на проникновение), так и для атак. Это делает грань между «способностями» и «безопасностью» крайне тонкой .

🕵️ Проблема загрязнения данных (Contamination) 1:17:10

Огромная проблема современной оценки — попадание тестовых вопросов в обучающую выборку (train-test overlap). Поскольку модели обучаются на всем интернете, они могли видеть ответы на MMLU или GPQA во время обучения .

Лектор предлагает два пути решения:

Детективный: Пытаться вычислить факт обучения по специфическим ответам модели или порядку перечисления вариантов .
Нормативный: Внедрять в сообщество стандарты обязательной отчетности о проверке на загрязнение, аналогично доверительным интервалам в статистике .

В завершение лекции подчеркивается, что сегодня мы оцениваем не «методы» (архитектуры), а «системы» в целом. Это сдвигает фокус с чистого научного эксперимента в сторону оценки пользовательского опыта и прикладной пользы .