Кризис оценки ИИ: почему современные бенчмарки лгут?

Stanford Online 22,2 тыс. 1 ч 20 мин 4 мин 04.06.2025
Главное

Курс Stanford CS336, посвященный созданию языковых моделей с нуля, затронул одну из самых проблемных областей современного ИИ — оценку производительности (Evaluation). В двенадцатой лекции эксперты из Стэнфорда разбирают, почему классические бенчмарки перестают работать, как «взламывают» рейтинги и почему индустрия столкнулась с настоящим «кризисом оценки».

📉 Кризис оценки и иллюзия прогресса 0:05

На первый взгляд оценка модели кажется чисто механическим процессом: подать запрос (prompt), получить ответ, вычислить метрику и вывести средний балл . Однако на практике это превращается в сложную философскую и техническую задачу. По мнению лектора, индустрия сейчас находится в состоянии «кризиса оценки» (evaluation crisis), термин для которого предложил исследователь Андрей Карпати .

Суть кризиса заключается в следующем:

🧪 Перплексия: возвращение к истокам 16:19

Перплексия (perplexity) — это базовая метрика, измеряющая, насколько хорошо модель предсказывает следующий токен в тестовом наборе данных . Несмотря на то что в последние годы индустрия переключилась на оценку точности выполнения задач, лектор настаивает на важности перплексии:

Однако у перплексии есть «грязный секрет»: ее легко исказить из-за ошибок в коде. Если API модели выдает вероятности, которые в сумме не дают единицу (например, из-за бага выдают 0.8 для каждого токена), цифры будут выглядеть блестяще, но результат будет технически невалидным .

🎓 Эволюция знаний: от школьных тестов до уровня PhD 32:20

Статья разбирает иерархию бенчмарков, которые становились всё сложнее по мере развития моделей:

  1. MMLU (2020): 57 предметов, множественный выбор. Изначально создавался для оценки базовых моделей (base models) до появления инструктивного обучения. Сейчас считается «пройденным этапом» .
  2. MMLU-Pro: Усложненная версия, где количество вариантов ответа увеличили с 4 до 10, чтобы исключить случайное угадывание .
  3. GPQA: Набор вопросов уровня аспирантуры (PhD), которые эксперты в MIT оценивают как «Google-proof» — ответ на них крайне сложно найти в поиске за 30 минут .
  4. Humanity's Last Exam (HLE): Один из самых свежих и сложных тестов, включающий мультимодальные задачи, на которых текущий лидер индустрии (модель O3) набирает пока лишь около 20% .

🤖 Агенты и реальный мир: SWE-bench и другие 1:00:13

Современные ИИ-системы — это не просто чат-боты, а агенты. Для их оценки используются динамические среды:

🛡️ Безопасность и проблема «двойного назначения» 1:06:11

Оценка безопасности (safety) остается наиболее политизированной и контекстуальной областью. Лектор выделяет несколько ключевых проблем:

🕵️ Проблема загрязнения данных (Contamination) 1:17:10

Огромная проблема современной оценки — попадание тестовых вопросов в обучающую выборку (train-test overlap). Поскольку модели обучаются на всем интернете, они могли видеть ответы на MMLU или GPQA во время обучения .

Лектор предлагает два пути решения:

  1. Детективный: Пытаться вычислить факт обучения по специфическим ответам модели или порядку перечисления вариантов .
  2. Нормативный: Внедрять в сообщество стандарты обязательной отчетности о проверке на загрязнение, аналогично доверительным интервалам в статистике .

В завершение лекции подчеркивается, что сегодня мы оцениваем не «методы» (архитектуры), а «системы» в целом. Это сдвигает фокус с чистого научного эксперимента в сторону оценки пользовательского опыта и прикладной пользы .

💬 Цитаты

«Существует кризис оценки. Бенчмарки либо насыщены, либо геймифицированы, либо и то и другое сразу.»

Преподаватель Stanford 03:41

«Оценка — это не просто запуск скрипта, это ведущий индикатор того, куда движется вся индустрия ИИ.»

Преподаватель Stanford 05:41
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Перплексия
Мера того, насколько хорошо модель предсказывает текст; чем ниже значение, тем увереннее модель.
Zero-shot
Способность модели решить задачу по инструкции без предварительных примеров в запросе.
Chain of Thought
Техника побуждения модели рассуждать по шагам перед выдачей финального ответа.
📊 Цифры
🗓 Хронология
  1. 2019 Франсуа Шолле представляет ARC AGI — тест на визуальное логическое мышление.
  2. 2020 Выход бенчмарка MMLU, ставшего стандартом оценки широких знаний.
  3. 2025 Текущая лекция курса CS336 в Стэнфорде.
⚖️ Другая сторона
Искусственный интеллект Stanford CS336 MMLU Chatbot Arena Perplexity AGI