Ян Дюбуа рассказал о скрытых ловушках тестирования LLM

Оценка и бенчмаркинг остаются одними из самых недооцененных, но критически важных этапов разработки систем машинного обучения для реального мира. В рамках лекции Стэнфордского университета исследователь Ян Дюбуа подробно разбирает эволюцию подходов к тестированию языковых моделей — от классической классификации текстов до современных ИИ-судей. Автор анализирует скрытые ловушки популярных метрик, проблему загрязнения данных и системные смещения, которые напрямую влияют на развитие индустрии.

🛠️ Жизненный цикл модели и роль оценки производительности 1:03

Разработка любой модели машинного обучения подчинена строгому жизненному циклу, в котором метрики играют определяющую роль на каждом этапе. По мнению Яна Дюбуа, этот процесс можно разделить на четыре ключевые фазы:

Обучение (Training): Метрики необходимы для вычисления функции потерь и оптимизации весов сети.
Разработка (Development): На этом этапе происходит тонкая настройка (подбор гиперпараметров, изменение скорости обучения или ранняя остановка для предотвращения переобучения).
Выбор модели (Model Selection): Оценка позволяет определить, какая из доступных моделей (собственная или разработанная сторонней группой) лучше всего справляется с целевой задачей.
Развертывание (Deployment): Финальная проверка, призванная подтвердить, что качество модели достаточно для вывода в промышленную эксплуатацию (продакшн).

[Image of Machine Learning Model Development Pipeline]

Существует также «параллельная вселенная» академических публикаций, где бенчмарки служат стандартизированным инструментом для демонстрации результатов сообществу. Ян Дюбуа подчеркивает, что универсальной метрики не существует: на этапе обучения необходимы сверхбыстрые, дешевые и дифференцируемые показатели для обратного распространения ошибки.

При развертывании в продакшене скорость отходит на второй план — здесь критически важны абсолютная надежность метрики и ее привязка к конкретной бизнес-задаче. Например, компания может установить жесткий порог: если точность модели ниже 95%, она не допускается к внедрению. В академической же среде во главе угла стоят воспроизводимость и стандартизация, позволяющие сравнивать научные статьи на горизонте 5–10 лет. По мнению лектора, в науке допустимо использовать грубые метрики, если они глобально указывают верное направление развития индустрии.

🎯 Закрытые задачи: классический подход и скрытые корреляции 7:58

Исторически в обработке естественного языка (NLP) задачи разделяют на закрытые и открытые. Закрытые задачи (close-ended tasks) характеризуются строго ограниченным набором потенциальных ответов — как правило, менее десяти. Оценка таких систем опирается на стандартный математический аппарат классического машинного обучения: аккуратность (accuracy), точность (precision), полноту (recall) и F1-меру.

К типичным закрытым задачам в NLP относятся:

Анализ тональности (Sentiment Analysis): Бинарная классификация текста на позитивный или негативный (популярные датасеты — IMDb и стэнфордский SST).
Логическое следование (Entailment): Определение того, вытекает ли гипотеза из предложенного текста (датасет SNLI).
Распознавание именованных сущностей (NER) и определение частей речи (Part of Speech): Тестируются на классических корпусах Penn Treebank и CoNLL.
Разрешение кореференции (Coreference Resolution): Поиск существительного, к которому относится конкретное местоимение в тексте.

Для комплексной оценки языковых моделей ученые долгое время использовали многозадачные супер-бенчмарки, такие как SuperGLUE, объединяющие 8–9 разнородных тестов. Однако лектор критикует устоявшуюся в академии практику агрегации результатов путем вычисления простого среднего арифметического. Колоночные данные SuperGLUE представляют собой абсолютно разные математические сущности (корреляции, F1-меры, точность). Дюбуа иронично вспоминает случай, когда в одном из бенчмарков исследователи годами усредняли показатели столбца, где лучшим результатом считалось минимальное значение, пока кто-то наконец не догадался поставить перед числами знак минуса.

Главной же опасностью закрытых тестов остаются ложные корреляции (spurious correlations). Исследование 2019 года обнаружило, что нейросети умудрялись безошибочно определять логическое несоответствие в датасете SNLI, анализируя исключительно текст гипотезы и полностью игнорируя исходную предпосылку. Причина крылась в человеческом факторе: аннотаторы, которых просили придумать ложные гипотезы, банально использовали в предложениях отрицания и частицу «не». Модель быстро уловила этот шаблон, став эффективным «детектором слова "не"», а не мыслящим лингвистическим ИИ.

📖 Открытые задачи: от BLEU к BERTScore и BLEURT 17:31

В открытых задачах (open-ended tasks) точного ответа не существует, а варианты генерации формируют непрерывный континуум качества. Классическими примерами здесь выступают автоматическое реферирование (суммаризация) и машинный перевод. В современной индустрии «матерью всех задач» стало выполнение инструкций (instruction-following), поскольку любой классический тест теперь можно сформулировать в виде промпта для чат-бота.

Для оценки открытых систем традиционно применялись метрики совпадения контента (content overlap metrics), сопоставляющие сгенерированный текст с эталоном, написанным человеком. Самыми известными n-gram метриками стали BLEU (ориентированная на точность в переводе) и ROUGE (ориентированная на полноту в суммаризации).

Ян Дюбуа наглядно демонстрирует несовершенство этих формул на примере шутливого диалога. Если на вопрос профессора Криса Питча «Нравятся ли вам лекции?» эталонным ответом утверждено экспрессивное «Heck yes!», то альтернативный и абсолютно корректный ответ модели «Yup» получит 0 баллов по шкале BLEU из-за отсутствия словарных совпадений. Напротив, категоричный отказ «Heck no!» наберет внушительные 67% из-за совпадения двух слов, несмотря на полностью искаженный смысл.

Чтобы преодолеть эту глухоту к семантике, исследователи создали метрики на базе нейросетевых представлений:

Векторное сходство: Усреднение статических эмбеддингов слов эталона и генерации с последующим расчетом косинусного расстояния.
BERTScore (2019): Использование контекстуализированных векторов модели BERT для попарного сопоставления токенов.
BLEURT: Гибридный метод, сочетающий предобученный BERT с каскадом многозадачного обучения. Модель сначала натаскивают предсказывать значения BLEU на синтетических данных, а затем дообучают на реальных оценках, выставленных экспертами.

Однако любая референтная метрика упирается в качество самого эталона. Так, популярный новостной бенчмарк CNN/Daily Mail использует в качестве золотого стандарта суммаризации текстовые буллет-поинты, размещенные на сайтах агентств. Профильное исследование выявило шокирующий факт: корреляция между оценками ROUGE-L на этих эталонах и реальным человеческим восприятием качества текста стремится к нулю. Ситуация исправляется только тогда, когда написание эталонов поручают профессиональным экспертам, но это кратно удорожает процесс.

🤖 Эпоха ИИ-судей: референс-фри оценка и феномен LLM-as-a-Judge 31:45

Неспособность старых алгоритмов адекватно оценивать развернутые ответы чат-ботов вынудила индустрию искать бесэталонные методы (reference-free evaluation). Исторически попытки обучить BERT выставлять оценку качеству текста по шкале от 1 до 5 провалились. Прорыв произошел с появлением генераций уровня GPT-4: выяснилось, что сверхбольшие модели способны выступать эффективными экспертами.

До этого момента истинным «золотым стандартом» считалась ручная разметка людьми. Но Ян Дюбуа, опираясь на собственный опыт создания платформы Alpaca Farm, заявляет: работа с человеческими аннотациями — это управленческий кошмар. Команда из пяти профессиональных ИИ-исследователей потратила несколько часов на выработку строжайших регламентов оценки. Несмотря на это, уровень их согласия между собой составил всего 67% (при условии, что 50% — это показатель случайного угадывания). Люди фундаментально непоследовательны: один и тот же человек может выставить разные оценки одной генерации до и после ужина. Масштабное исследование 128 научных работ за пять лет показало, что лишь 5% экспериментов с привлечением людей-оценщиков являются воспроизводимыми.

Дополнительно возникает конфликт интересов: краудворкеры на платформах вроде Amazon MTurk стремятся максимизировать почасовой доход, а не качество разметки. Исследователи Стэнфорда платили рабочим щедрые 1,5 калифорнийских МРОТ. В итоге разметчики начали сдавать работу в три раза быстрее ученых, получая двойную ставку, но при этом используя грубые ментальные уловки (shortcuts) — например, они подсознательно всегда выбирали более длинный ответ, не вчитываясь в суть.

Краудсорсинговый проект Chatbot Arena частично решает эти проблемы за счет масштаба: пользователи вслепую сравнивают ответы двух безымянных моделей, формируя глобальный рейтинг Эло на основе более 200 тысяч голосов. Однако этот метод доступен лишь ИТ-гигантам: обычный разработчик никогда не соберет такую аудиторию для тестирования своей экспериментальной архитектуры.

Использование GPT-4 в качестве судьи (метрики AlpacaEval и MT-Bench) оказалось тектоническим сдвигом: этот подход в 100 раз быстрее и в 100 раз дешевле человеческого труда. При этом корреляция оценок GPT-4 с коллективным консенсусом людей оказалась выше, чем у среднестатистического человека с его же коллегами. Секрет кроется в математических свойствах: у LLM полностью отсутствует человеческая дисперсия (variance), они жестко последовательны и всегда выбирают один и тот же маркер. Оборотная сторона медали — высокий системный перекос (bias), составляющий у GPT-4 около 32%.

⚠️ Подводные камни автоматической оценки и ложные сигналы 49:23

ИИ-судьи унаследовали и усугубили когнитивные искажения людей. По словам Дюбуа, ключевыми уязвимостями систем класса LLM-as-a-Judge являются:

Предвзятость к длине (Length Bias): Люди предпочитают длинные ответы в 70% случаев; GPT-4 демонстрирует абсолютно аналогичную аномалию.
Любовь к структурированию: Модели и люди завышают оценки текстам, если они оформлены в виде маркированных списков.
Позиционное смещение (Position Bias): Результат сравнения зависит от того, какой текст подан промптом слева, а какой справа (купируется случайной перестановкой мест).
Эгоцентризм (Self-bias): GPT-4 склонна отдавать приоритет собственным генерациям при оценке, хотя этот перекос не мешает ей признавать превосходство Claude над Mistral.

Созданный в Стэнфорде бенчмарк AlpacaEval обладает феноменальной корреляцией в 98% с «золотым» рейтингом Chatbot Arena, а сам тест занимает всего 3 минуты и обходится в $10. Чтобы победить «смещение длины», авторы внедрили процедуру математического взвешивания (reweighting). Без этого алгоритмического предохранителя симуляция показывает абсурдные результаты: если в промпте просто попросить GPT-4 отвечать подробнее, показатель побед (win rate) модели искусственно взлетает с 50% до 64,3%. Если попросить писать лаконичнее — падает до 22,9%.

Еще одна критическая проблема современных ИИ-тестов — колоссальная чувствительность к форматированию промпта. Достаточно заменить стандартные маркеры вариантов ответов (A, B, C, D) в тесте MMLU на случайные символы, как финальный рейтинг моделей полностью перестраивается.

Более года в индустрии сосуществовали три разные программные реализации бенчмарка MMLU (HELM, Harness от Hugging Face и оригинальный скрипт авторов), и никто не осознавал, что они считают разные вещи. Из-за различий в методах декодирования (ограниченный выбор токенов против анализа логарифмического правдоподобия всей строки) оценка одной и той же модели LLaMA-65B в репозитории Harness составляла скромные 48,8%, а в системе HELM — внушительные 63,7%.

🛑 Загряннение данных, оверфиттинг и культурная монополия 1:07:06

Современный бенчмаркинг уперся в проблему загрязнения данных (data contamination). Известный разработчик Хорас Хэ обнаружил аномалию: модель GPT-4 безошибочно решает 10 из 10 сложнейших олимпиадных задач платформы Codeforces, опубликованных до 2021 года, но набирает ровно 0 баллов из 10 на более свежих задачах. Это прямое доказательство того, что закрытые коммерческие модели обучались непосредственно на тестовых датасетах. Аналогичные факты «зубрежки тестов» зафиксированы исследовательницей Сьюзан для микромодели Phi-1.5 от Microsoft.

Для борьбы с этим явлением инженеры создают секретные зеркальные датасеты, такие как GSM1K (закрытая копия популярного математического теста GSM8K). Результаты независимого аудита неутешительны: при тестировании на скрытом датасете все открытые модели (open-source) показали резкое падение точности, поскольку авторы оптимизировали их гиперпараметры под общеизвестный тест. Напротив, у коммерческих систем верхнего эшелона (GPT-4, Claude) падения результатов зафиксировано не было. Лектор видит спасение в переходе к динамическим бенчмаркам вроде Dynabench, где пул вопросов непрерывно обновляется.

В финальной части лекции Ян Дюбуа указывает на глубокий кризис монокультуры и игнорирование интересов миноритарных групп в NLP. Анализ авторитетной конференции ACL показал, что 70% всех передовых научных работ тестируются исключительно на английском языке, а 40% измеряют только одну метрику — точность (accuracy). При этом базовые алгоритмы BLEU и ROUGE физически спроектированы под западно-европейские языки с пробелами. При попытке применить их к азиатским языкам (например, тайскому, где пробелы между словами отсутствуют), классическая токенизация ломается на корню.

Исследование ИИ-лаборатории Anthropic с использованием датасета DiscrimEval выявило пугающую закономерность: если в шаблоне юридического или страхового вопроса изменить только расу или гендер заявителя, языковые модели начинают принимать системно дискриминационные решения.

Более того, картографирование базовых ценностных ориентаций ИИ показало, что на этапе предобучения (pretraining) модели относительно нейтральны. Однако после процедур выравнивания (SFT и RLHF) они начинают жестко транслировать взгляды исключительно высокообразованных слоев населения, белых граждан США и жителей Юго-Восточной Азии. Столь специфический географический перекос в сторону ЮВА лектор объясняет прозаично: именно в этом регионе сосредоточены основные фабрики дешевой ручной разметки данных, на которых обучаются современные нейросети.

Главным барьером на пути к качественному изменению ситуации остается отсутствие стимулов в академической среде. Около 82% научных статей по машинному переводу продолжают использовать архаичную метрику BLEU, зная обо всех ее критических изъянах. Причина проста: рецензенты научных журналов требуют преемственности и сопоставимости результатов с прошлыми годами. Главный совет Яна Дюбуа инженерам будущего — никогда не верить красивым цифрам на лидербордах и всегда оценивать качество генерации собственными глазами.