# Эндрю Ын: «Точное определение человеческого уровня критично для успеха ML-проекта»

Источник: https://www.youtube.com/watch?v=NUmbgp1h64E
Канал: DeepLearning.AI
Опубликовано: 25.08.2017

---

В рамках курса по структурированию проектов машинного обучения основатель DeepLearning.AI Эндрю Ын (Andrew Ng) подробно разбирает понятие «производительность на уровне человека» (human-level performance). Он объясняет, почему этот термин — не просто маркетинговый ярлык, а фундаментальный инструмент для оценки потенциала модели и выбора правильной стратегии оптимизации через определение ошибки Байеса.

## 🩺 Определение «человеческого уровня»: кейс из радиологии
[[JUMP:0:00]]

В научных статьях термин «человеческий уровень» часто используется небрежно, однако для эффективного управления ML-проектом требуется предельная точность [0:13]. Эндрю Ын предлагает рассмотреть пример классификации медицинских изображений (рентгеновских снимков) для постановки диагноза.

Разные группы людей показывают разную точность в этой задаче:

*   **Обычный человек (без подготовки):** 3% ошибки [0:51].
*   **Типичный врач-радиолог:** 1% ошибки [0:51].
*   **Опытный врач-радиолог:** 0,7% ошибки [1:05].
*   **Консилиум опытных врачей:** 0,5% ошибки [1:05].

По мнению Эндрю Ына, выбор конкретной цифры в качестве «человеческого уровня» зависит от целей разработчика. Если цель — доказать, что система готова к развертыванию, достаточно превзойти показатели типичного врача [3:06]. Однако, если задача состоит в том, чтобы использовать человеческий уровень как прокси-метрику для ошибки Байеса (минимально возможной ошибки в принципе), то следует выбирать наилучший результат — 0,5% [1:46].

Логика Эндрю Ына проста: если группа экспертов смогла достичь 0,5% ошибки, значит, теоретически идеальная ошибка (ошибка Байеса) точно не выше этого значения [2:12]. Она может быть еще ниже, но 0,5% — это надежный «потолок» возможностей на текущий момент [2:39].

## 📉 Анализ ошибок: смещение против дисперсии
[[JUMP:0:38]]

Понимание человеческого уровня критически важно для определения того, над чем работать дальше: над уменьшением «устранимого смещения» (avoidable bias) или над сокращением дисперсии (variance) [4:28].

Эндрю Ын приводит три сценария развития событий:

**Сценарий 1: Большая дистанция до человеческого уровня**

*   Ошибка на обучающей выборке (Train error): 5% [3:46].
*   Ошибка на валидационной выборке (Dev error): 6% [3:46].
*   Человеческий уровень (Bayes proxy): 0,5% – 1%.
*   **Вывод:** В этом случае неважно, какую именно цифру из «человеческого диапазона» брать [5:07]. Разрыв между 1% и 5% (4%) гораздо больше, чем разрыв между Train и Dev (1%). Необходимо сфокусироваться на методах борьбы со смещением, например, увеличить размер нейросети [5:23].

**Сценарий 2: Проблема дисперсии**

*   Train error: 1% [5:38].
*   Dev error: 5% [5:38].
*   **Вывод:** Опять же, точное значение человеческого уровня (0,5% или 1%) не меняет сути. Основная проблема здесь — разрыв между Train и Dev (4%). Нужно работать над дисперсией: использовать регуляризацию или собирать больше данных [6:15].

**Сценарий 3: Когда точность определения критична**

*   Train error: 0,7% [6:29].
*   Dev error: 0,8% [6:29].
*   **Вывод:** Если мы считаем человеческим уровнем 0,7% (опытный врач), то смещение кажется нулевым. Но если мы берем 0,5% (консилиум), то видим, что устранимое смещение (0,2%) в два раза больше дисперсии (0,1%) [6:43]. В этой ситуации правильное определение прокси для ошибки Байеса указывает на то, что модель еще можно дообучать на тренировочных данных [6:57].

## 🚧 Почему прогресс замедляется у «финишной черты»
[[JUMP:7:22]]

Эндрю Ын отмечает, что работа над ML-проектом становится значительно сложнее, когда производительность алгоритма приближается к человеческому уровню [7:22].

Основные причины замедления прогресса:

1.  **Сложность оценки ошибки Байеса:** Когда вы уже достигли 0,7% ошибки, вам трудно понять, насколько далеко вы находитесь от теоретического предела [7:35].
2.  **Трудности в разделении эффектов:** Становится сложно отличить, вызвано ли оставшееся несовершенство модели смещением или дисперсией [8:13].
3.  **Отсутствие ориентиров:** Пока человек справляется лучше алгоритма, у вас есть четкий ориентир для разметки данных и анализа ошибок. Как только вы обгоняете человека, эти инструменты перестают работать так же эффективно [10:45].

Этот феномен особенно заметен в задачах с «зашумленными» данными, таких как распознавание речи на фоне сильного шума, где даже люди не могут прийти к единому мнению о сказанном [10:06].

## 🏁 Резюме и переход к сверхчеловеческим результатам
[[JUMP:8:26]]

В отличие от классических подходов, где смещение измеряется относительно идеального нуля, Эндрю Ын подчеркивает важность реалистичных ожиданий [9:14]. В задачах вроде распознавания котиков на фото ошибка Байеса практически равна нулю, так как люди справляются с этим идеально [9:54]. Но в сложных прикладных задачах она всегда выше нуля.

Ключевые выводы занятия:

*   Человеческий уровень служит прокси-метрикой для ошибки Байеса [10:32].
*   Разница между ошибкой Байеса и Train error — это «устранимое смещение».
*   Разница между Train error и Dev error — это «дисперсия».
*   Использование лучшего возможного человеческого результата позволяет быстрее принимать правильные решения о векторе разработки [10:32].

Эндрю Ын заключает, что одной из самых захватывающих областей глубокого обучения является преодоление человеческого уровня, о чем он обещает рассказать в следующем видео [10:59].