Эндрю Ын: «Точное определение человеческого уровня критично для успеха ML-проекта»

В рамках курса по структурированию проектов машинного обучения основатель DeepLearning.AI Эндрю Ын (Andrew Ng) подробно разбирает понятие «производительность на уровне человека» (human-level performance). Он объясняет, почему этот термин — не просто маркетинговый ярлык, а фундаментальный инструмент для оценки потенциала модели и выбора правильной стратегии оптимизации через определение ошибки Байеса.

🩺 Определение «человеческого уровня»: кейс из радиологии 0:00

В научных статьях термин «человеческий уровень» часто используется небрежно, однако для эффективного управления ML-проектом требуется предельная точность . Эндрю Ын предлагает рассмотреть пример классификации медицинских изображений (рентгеновских снимков) для постановки диагноза.

Разные группы людей показывают разную точность в этой задаче:

Обычный человек (без подготовки): 3% ошибки .
Типичный врач-радиолог: 1% ошибки .
Опытный врач-радиолог: 0,7% ошибки .
Консилиум опытных врачей: 0,5% ошибки .

По мнению Эндрю Ына, выбор конкретной цифры в качестве «человеческого уровня» зависит от целей разработчика. Если цель — доказать, что система готова к развертыванию, достаточно превзойти показатели типичного врача . Однако, если задача состоит в том, чтобы использовать человеческий уровень как прокси-метрику для ошибки Байеса (минимально возможной ошибки в принципе), то следует выбирать наилучший результат — 0,5% .

Логика Эндрю Ына проста: если группа экспертов смогла достичь 0,5% ошибки, значит, теоретически идеальная ошибка (ошибка Байеса) точно не выше этого значения . Она может быть еще ниже, но 0,5% — это надежный «потолок» возможностей на текущий момент .

📉 Анализ ошибок: смещение против дисперсии 0:38

Понимание человеческого уровня критически важно для определения того, над чем работать дальше: над уменьшением «устранимого смещения» (avoidable bias) или над сокращением дисперсии (variance) .

Эндрю Ын приводит три сценария развития событий:

Сценарий 1: Большая дистанция до человеческого уровня

Ошибка на обучающей выборке (Train error): 5% .
Ошибка на валидационной выборке (Dev error): 6% .
Человеческий уровень (Bayes proxy): 0,5% – 1%.
Вывод: В этом случае неважно, какую именно цифру из «человеческого диапазона» брать . Разрыв между 1% и 5% (4%) гораздо больше, чем разрыв между Train и Dev (1%). Необходимо сфокусироваться на методах борьбы со смещением, например, увеличить размер нейросети .

Сценарий 2: Проблема дисперсии

Train error: 1% .
Dev error: 5% .
Вывод: Опять же, точное значение человеческого уровня (0,5% или 1%) не меняет сути. Основная проблема здесь — разрыв между Train и Dev (4%). Нужно работать над дисперсией: использовать регуляризацию или собирать больше данных .

Сценарий 3: Когда точность определения критична

Train error: 0,7% .
Dev error: 0,8% .
Вывод: Если мы считаем человеческим уровнем 0,7% (опытный врач), то смещение кажется нулевым. Но если мы берем 0,5% (консилиум), то видим, что устранимое смещение (0,2%) в два раза больше дисперсии (0,1%) . В этой ситуации правильное определение прокси для ошибки Байеса указывает на то, что модель еще можно дообучать на тренировочных данных .

🚧 Почему прогресс замедляется у «финишной черты» 7:22

Эндрю Ын отмечает, что работа над ML-проектом становится значительно сложнее, когда производительность алгоритма приближается к человеческому уровню .

Основные причины замедления прогресса:

Сложность оценки ошибки Байеса: Когда вы уже достигли 0,7% ошибки, вам трудно понять, насколько далеко вы находитесь от теоретического предела .
Трудности в разделении эффектов: Становится сложно отличить, вызвано ли оставшееся несовершенство модели смещением или дисперсией .
Отсутствие ориентиров: Пока человек справляется лучше алгоритма, у вас есть четкий ориентир для разметки данных и анализа ошибок. Как только вы обгоняете человека, эти инструменты перестают работать так же эффективно .

Этот феномен особенно заметен в задачах с «зашумленными» данными, таких как распознавание речи на фоне сильного шума, где даже люди не могут прийти к единому мнению о сказанном .

🏁 Резюме и переход к сверхчеловеческим результатам 8:26

В отличие от классических подходов, где смещение измеряется относительно идеального нуля, Эндрю Ын подчеркивает важность реалистичных ожиданий . В задачах вроде распознавания котиков на фото ошибка Байеса практически равна нулю, так как люди справляются с этим идеально . Но в сложных прикладных задачах она всегда выше нуля.

Ключевые выводы занятия:

Человеческий уровень служит прокси-метрикой для ошибки Байеса .
Разница между ошибкой Байеса и Train error — это «устранимое смещение».
Разница между Train error и Dev error — это «дисперсия».
Использование лучшего возможного человеческого результата позволяет быстрее принимать правильные решения о векторе разработки .

Эндрю Ын заключает, что одной из самых захватывающих областей глубокого обучения является преодоление человеческого уровня, о чем он обещает рассказать в следующем видео .