В рамках курса по структурированию проектов машинного обучения основатель DeepLearning.AI Эндрю Ын (Andrew Ng) подробно разбирает понятие «производительность на уровне человека» (human-level performance). Он объясняет, почему этот термин — не просто маркетинговый ярлык, а фундаментальный инструмент для оценки потенциала модели и выбора правильной стратегии оптимизации через определение ошибки Байеса.
🩺 Определение «человеческого уровня»: кейс из радиологии 0:00
В научных статьях термин «человеческий уровень» часто используется небрежно, однако для эффективного управления ML-проектом требуется предельная точность . Эндрю Ын предлагает рассмотреть пример классификации медицинских изображений (рентгеновских снимков) для постановки диагноза.
Разные группы людей показывают разную точность в этой задаче:
- Обычный человек (без подготовки): 3% ошибки .
- Типичный врач-радиолог: 1% ошибки .
- Опытный врач-радиолог: 0,7% ошибки .
- Консилиум опытных врачей: 0,5% ошибки .
По мнению Эндрю Ына, выбор конкретной цифры в качестве «человеческого уровня» зависит от целей разработчика. Если цель — доказать, что система готова к развертыванию, достаточно превзойти показатели типичного врача . Однако, если задача состоит в том, чтобы использовать человеческий уровень как прокси-метрику для ошибки Байеса (минимально возможной ошибки в принципе), то следует выбирать наилучший результат — 0,5% .
Логика Эндрю Ына проста: если группа экспертов смогла достичь 0,5% ошибки, значит, теоретически идеальная ошибка (ошибка Байеса) точно не выше этого значения . Она может быть еще ниже, но 0,5% — это надежный «потолок» возможностей на текущий момент .
📉 Анализ ошибок: смещение против дисперсии 0:38
Понимание человеческого уровня критически важно для определения того, над чем работать дальше: над уменьшением «устранимого смещения» (avoidable bias) или над сокращением дисперсии (variance) .
Эндрю Ын приводит три сценария развития событий:
Сценарий 1: Большая дистанция до человеческого уровня
- Ошибка на обучающей выборке (Train error): 5% .
- Ошибка на валидационной выборке (Dev error): 6% .
- Человеческий уровень (Bayes proxy): 0,5% – 1%.
- Вывод: В этом случае неважно, какую именно цифру из «человеческого диапазона» брать . Разрыв между 1% и 5% (4%) гораздо больше, чем разрыв между Train и Dev (1%). Необходимо сфокусироваться на методах борьбы со смещением, например, увеличить размер нейросети .
Сценарий 2: Проблема дисперсии
- Train error: 1% .
- Dev error: 5% .
- Вывод: Опять же, точное значение человеческого уровня (0,5% или 1%) не меняет сути. Основная проблема здесь — разрыв между Train и Dev (4%). Нужно работать над дисперсией: использовать регуляризацию или собирать больше данных .
Сценарий 3: Когда точность определения критична
- Train error: 0,7% .
- Dev error: 0,8% .
- Вывод: Если мы считаем человеческим уровнем 0,7% (опытный врач), то смещение кажется нулевым. Но если мы берем 0,5% (консилиум), то видим, что устранимое смещение (0,2%) в два раза больше дисперсии (0,1%) . В этой ситуации правильное определение прокси для ошибки Байеса указывает на то, что модель еще можно дообучать на тренировочных данных .
🚧 Почему прогресс замедляется у «финишной черты» 7:22
Эндрю Ын отмечает, что работа над ML-проектом становится значительно сложнее, когда производительность алгоритма приближается к человеческому уровню .
Основные причины замедления прогресса:
- Сложность оценки ошибки Байеса: Когда вы уже достигли 0,7% ошибки, вам трудно понять, насколько далеко вы находитесь от теоретического предела .
- Трудности в разделении эффектов: Становится сложно отличить, вызвано ли оставшееся несовершенство модели смещением или дисперсией .
- Отсутствие ориентиров: Пока человек справляется лучше алгоритма, у вас есть четкий ориентир для разметки данных и анализа ошибок. Как только вы обгоняете человека, эти инструменты перестают работать так же эффективно .
Этот феномен особенно заметен в задачах с «зашумленными» данными, таких как распознавание речи на фоне сильного шума, где даже люди не могут прийти к единому мнению о сказанном .
🏁 Резюме и переход к сверхчеловеческим результатам 8:26
В отличие от классических подходов, где смещение измеряется относительно идеального нуля, Эндрю Ын подчеркивает важность реалистичных ожиданий . В задачах вроде распознавания котиков на фото ошибка Байеса практически равна нулю, так как люди справляются с этим идеально . Но в сложных прикладных задачах она всегда выше нуля.
Ключевые выводы занятия:
- Человеческий уровень служит прокси-метрикой для ошибки Байеса .
- Разница между ошибкой Байеса и Train error — это «устранимое смещение».
- Разница между Train error и Dev error — это «дисперсия».
- Использование лучшего возможного человеческого результата позволяет быстрее принимать правильные решения о векторе разработки .
Эндрю Ын заключает, что одной из самых захватывающих областей глубокого обучения является преодоление человеческого уровня, о чем он обещает рассказать в следующем видео .