Эндрю Ныш о ловушках HLP: «Математическое доказательство превосходства модели редко убеждает бизнес»

В рамках специализации по MLOps (Machine Learning Engineering for Production) Эндрю Ныш, основатель DeepLearning.AI, подробно разбирает концепцию человеческого уровня производительности (Human Level Performance, HLP). Он объясняет, почему погоня за «превосходством над человеком» может быть ловушкой, и как неправильное понимание базовых метрик мешает внедрению ИИ в реальный бизнес.

🎯 Роль HLP как точки отсчета в машинном обучении 0:01

По словам Эндрю Ныша, одной из самых важных функций измерения человеческого уровня производительности (HLP) является оценка ошибки Байеса или «неустранимой ошибки» . Особенно это актуально для задач с неструктурированными данными (изображения, аудио, текст). HLP помогает провести анализ ошибок, расставить приоритеты и понять, чего вообще теоретически можно достичь в рамках конкретной задачи .

Ныш приводит пример из практики визуального контроля на производстве:

Владельцы бизнеса часто просят построить систему с точностью 99% или даже 99,9% .
Чтобы проверить реалистичность этих ожиданий, полезно взять набор данных (Ground Truth) и попросить человека-инспектора разметить его «вслепую» .
Если инспектор соглашается с эталонной разметкой только в 4 случаях из 6, его точность составляет всего 66,7% .

Этот результат становится веским аргументом в диалоге с заказчиком. По мнению автора, если даже опытный сотрудник достигает лишь 66,7%, требовать от алгоритма 99% бессмысленно, пока не решена проблема качества самих данных .

🧐 Проблема «истинной разметки» и согласия экспертов 1:49

Эндрю Ныш ставит под сомнение сам термин Ground Truth («истинная разметка»), когда она создается людьми. Он отмечает, что часто исследователи не задаются вопросом: что именно мы измеряем — реальные возможности системы или просто степень согласия двух разных людей ?

Если эталонная метка сама была поставлена человеком, то HLP превращается в показатель того, насколько мнения экспертов совпадают между собой . Это фундаментально меняет подход к оценке производительности, который Ныш предлагает детально рассмотреть с точки зрения согласованности данных.

🎓 HLP в науке против реального бизнеса 2:41

В академической среде HLP традиционно используется как уважаемый бенчмарк. Ныш утверждает, что если исследователь доказывает, что его алгоритм распознавания речи превзошел показатели человека (например, точность людей составляет 92%), это становится «пропуском» для публикации статьи в научном журнале . По его словам, демонстрация превосходства над HLP — это «проверенная временем формула» для подтверждения академической значимости работы .

Однако в индустрии ситуация иная. Ныш предостерегает команды разработчиков от попыток доказать превосходство ИИ над людьми (будь то радиологи или инспекторы на заводе) с помощью одной лишь математики .

Аргументы автора против стратегии «доказательства превосходства»:

Математическое доказательство превосходства алгоритма редко работает как рычаг для убеждения бизнеса внедрить систему .
Бизнесу нужны решения, которые делают больше, чем просто показывают высокую среднюю точность на тестовой выборке .
Эндрю Ныш рекомендует использовать такие аргументы с большой осторожностью или вовсе от них отказаться в пользу более эффективных методов убеждения .

📉 Математическая ловушка: несправедливое преимущество алгоритма 5:15

Одной из главных проблем HLP автор называет ситуации, когда инструкции по разметке противоречивы. Это дает алгоритму «несправедливое преимущество», которое в реальности не приносит пользы .

Ныш разбирает пример с транскрибацией аудио (фраза «nearest gas station»):

70% разметчиков используют один вариант оформления (например, с многоточием).
30% разметчиков используют другой вариант (например, с запятой) .
Оба варианта приемлемы, ни один не лучше другого.

В такой ситуации вероятность того, что два случайных разметчика согласятся друг с другом, составляет всего 0,58 ($0.7^2 + 0.3^2$) . Если измерять HLP по согласию, он составит 58%.

Однако алгоритм машинного обучения может выявить статистику и всегда выбирать самый популярный вариант (тот, что встречается в 70% случаев). В итоге точность алгоритма будет 70%, что формально на 12% выше человеческого уровня .

По мнению Ныша, это преимущество является «фальшивым»:

Алгоритм не работает лучше человека в том смысле, который важен для пользователя .
Эта разница в 12% может маскировать реальные, критические ошибки на других типах аудиоданных .
В результате система выглядит лучше HLP на бумаге, но на практике выдает транскрипты хуже человеческих .

🚀 Новый приоритет: повышение уровня HLP 9:35

В качестве вывода Эндрю Ныш предлагает сменить парадигму. Вместо того чтобы пытаться «побить» человеческий уровень, он рекомендует сосредоточиться на его повышении .

Основной метод достижения этой цели — улучшение согласованности разметки (label consistency). Когда инструкции становятся четкими и двусмысленность исчезает, человеческий уровень производительности растет. По мнению автора, это автоматически ведет и к улучшению качества работы самой модели машинного обучения .