Эндрю Ныш о ловушках HLP: «Математическое доказательство превосходства модели редко убеждает бизнес»

DeepLearning.AI 9,1 тыс. 10 мин 3 мин 21.04.2022
Главное

В рамках специализации по MLOps (Machine Learning Engineering for Production) Эндрю Ныш, основатель DeepLearning.AI, подробно разбирает концепцию человеческого уровня производительности (Human Level Performance, HLP). Он объясняет, почему погоня за «превосходством над человеком» может быть ловушкой, и как неправильное понимание базовых метрик мешает внедрению ИИ в реальный бизнес.

🎯 Роль HLP как точки отсчета в машинном обучении 0:01

По словам Эндрю Ныша, одной из самых важных функций измерения человеческого уровня производительности (HLP) является оценка ошибки Байеса или «неустранимой ошибки» . Особенно это актуально для задач с неструктурированными данными (изображения, аудио, текст). HLP помогает провести анализ ошибок, расставить приоритеты и понять, чего вообще теоретически можно достичь в рамках конкретной задачи .

Ныш приводит пример из практики визуального контроля на производстве:

Этот результат становится веским аргументом в диалоге с заказчиком. По мнению автора, если даже опытный сотрудник достигает лишь 66,7%, требовать от алгоритма 99% бессмысленно, пока не решена проблема качества самих данных .

🧐 Проблема «истинной разметки» и согласия экспертов 1:49

Эндрю Ныш ставит под сомнение сам термин Ground Truth («истинная разметка»), когда она создается людьми. Он отмечает, что часто исследователи не задаются вопросом: что именно мы измеряем — реальные возможности системы или просто степень согласия двух разных людей ?

Если эталонная метка сама была поставлена человеком, то HLP превращается в показатель того, насколько мнения экспертов совпадают между собой . Это фундаментально меняет подход к оценке производительности, который Ныш предлагает детально рассмотреть с точки зрения согласованности данных.

🎓 HLP в науке против реального бизнеса 2:41

В академической среде HLP традиционно используется как уважаемый бенчмарк. Ныш утверждает, что если исследователь доказывает, что его алгоритм распознавания речи превзошел показатели человека (например, точность людей составляет 92%), это становится «пропуском» для публикации статьи в научном журнале . По его словам, демонстрация превосходства над HLP — это «проверенная временем формула» для подтверждения академической значимости работы .

Однако в индустрии ситуация иная. Ныш предостерегает команды разработчиков от попыток доказать превосходство ИИ над людьми (будь то радиологи или инспекторы на заводе) с помощью одной лишь математики .

Аргументы автора против стратегии «доказательства превосходства»:

📉 Математическая ловушка: несправедливое преимущество алгоритма 5:15

Одной из главных проблем HLP автор называет ситуации, когда инструкции по разметке противоречивы. Это дает алгоритму «несправедливое преимущество», которое в реальности не приносит пользы .

Ныш разбирает пример с транскрибацией аудио (фраза «nearest gas station»):

  1. 70% разметчиков используют один вариант оформления (например, с многоточием).
  2. 30% разметчиков используют другой вариант (например, с запятой) .
  3. Оба варианта приемлемы, ни один не лучше другого.

В такой ситуации вероятность того, что два случайных разметчика согласятся друг с другом, составляет всего 0,58 ($0.7^2 + 0.3^2$) . Если измерять HLP по согласию, он составит 58%.

Однако алгоритм машинного обучения может выявить статистику и всегда выбирать самый популярный вариант (тот, что встречается в 70% случаев). В итоге точность алгоритма будет 70%, что формально на 12% выше человеческого уровня .

По мнению Ныша, это преимущество является «фальшивым»:

🚀 Новый приоритет: повышение уровня HLP 9:35

В качестве вывода Эндрю Ныш предлагает сменить парадигму. Вместо того чтобы пытаться «побить» человеческий уровень, он рекомендует сосредоточиться на его повышении .

Основной метод достижения этой цели — улучшение согласованности разметки (label consistency). Когда инструкции становятся четкими и двусмысленность исчезает, человеческий уровень производительности растет. По мнению автора, это автоматически ведет и к улучшению качества работы самой модели машинного обучения .

💬 Цитаты

«Если ваша цель — создать полезное приложение, а не опубликовать статью, то часто полезнее пытаться поднять человеческий уровень производительности, а не просто побить его.»

Эндрю Ныш 10:04

«Математическое доказательство превосходства вашего алгоритма обучения редко работает на практике при общении с бизнесом.»

Эндрю Ныш 04:24
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
HLP (Human Level Performance)
Уровень производительности, достигаемый человеком при выполнении конкретной задачи.
Bayes error
Минимально возможный уровень ошибки, который нельзя устранить никаким алгоритмом из-за шума в данных.
Ground Truth
Эталонная разметка данных, принимаемая за абсолютную истину для обучения модели.
Label consistency
Степень единообразия в том, как разные люди (или один и тот же человек) размечают одни и те же данные.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Andrew Ng MLOps Human Level Performance Bayes error DeepLearning.AI