Эндрю Ын: «Точное определение человеческого уровня критично для успеха ML-проекта»

DeepLearning.AI 20,5 тыс. 11 мин 4 мин 25.08.2017
Главное

В рамках курса по структурированию проектов машинного обучения основатель DeepLearning.AI Эндрю Ын (Andrew Ng) подробно разбирает понятие «производительность на уровне человека» (human-level performance). Он объясняет, почему этот термин — не просто маркетинговый ярлык, а фундаментальный инструмент для оценки потенциала модели и выбора правильной стратегии оптимизации через определение ошибки Байеса.

🩺 Определение «человеческого уровня»: кейс из радиологии 0:00

В научных статьях термин «человеческий уровень» часто используется небрежно, однако для эффективного управления ML-проектом требуется предельная точность . Эндрю Ын предлагает рассмотреть пример классификации медицинских изображений (рентгеновских снимков) для постановки диагноза.

Разные группы людей показывают разную точность в этой задаче:

По мнению Эндрю Ына, выбор конкретной цифры в качестве «человеческого уровня» зависит от целей разработчика. Если цель — доказать, что система готова к развертыванию, достаточно превзойти показатели типичного врача . Однако, если задача состоит в том, чтобы использовать человеческий уровень как прокси-метрику для ошибки Байеса (минимально возможной ошибки в принципе), то следует выбирать наилучший результат — 0,5% .

Логика Эндрю Ына проста: если группа экспертов смогла достичь 0,5% ошибки, значит, теоретически идеальная ошибка (ошибка Байеса) точно не выше этого значения . Она может быть еще ниже, но 0,5% — это надежный «потолок» возможностей на текущий момент .

📉 Анализ ошибок: смещение против дисперсии 0:38

Понимание человеческого уровня критически важно для определения того, над чем работать дальше: над уменьшением «устранимого смещения» (avoidable bias) или над сокращением дисперсии (variance) .

Эндрю Ын приводит три сценария развития событий:

Сценарий 1: Большая дистанция до человеческого уровня

Сценарий 2: Проблема дисперсии

Сценарий 3: Когда точность определения критична

🚧 Почему прогресс замедляется у «финишной черты» 7:22

Эндрю Ын отмечает, что работа над ML-проектом становится значительно сложнее, когда производительность алгоритма приближается к человеческому уровню .

Основные причины замедления прогресса:

  1. Сложность оценки ошибки Байеса: Когда вы уже достигли 0,7% ошибки, вам трудно понять, насколько далеко вы находитесь от теоретического предела .
  2. Трудности в разделении эффектов: Становится сложно отличить, вызвано ли оставшееся несовершенство модели смещением или дисперсией .
  3. Отсутствие ориентиров: Пока человек справляется лучше алгоритма, у вас есть четкий ориентир для разметки данных и анализа ошибок. Как только вы обгоняете человека, эти инструменты перестают работать так же эффективно .

Этот феномен особенно заметен в задачах с «зашумленными» данными, таких как распознавание речи на фоне сильного шума, где даже люди не могут прийти к единому мнению о сказанном .

🏁 Резюме и переход к сверхчеловеческим результатам 8:26

В отличие от классических подходов, где смещение измеряется относительно идеального нуля, Эндрю Ын подчеркивает важность реалистичных ожиданий . В задачах вроде распознавания котиков на фото ошибка Байеса практически равна нулю, так как люди справляются с этим идеально . Но в сложных прикладных задачах она всегда выше нуля.

Ключевые выводы занятия:

Эндрю Ын заключает, что одной из самых захватывающих областей глубокого обучения является преодоление человеческого уровня, о чем он обещает рассказать в следующем видео .

💬 Цитаты

«Человеческий уровень производительности является прокси-метрикой для ошибки Байеса.»

«Прогресс в проектах машинного обучения замедляется, как только вы достигаете человеческого уровня.»

👥 Спикер
📖 Термины
Ошибка Байеса (Bayes error)
Минимально возможный уровень ошибки для любой функции, который невозможно превзойти из-за случайного шума в данных.
Устранимое смещение (Avoidable bias)
Разрыв между ошибкой на обучающей выборке и теоретически минимальной ошибкой (ошибкой Байеса).
Дисперсия (Variance)
Показатель того, насколько сильно ошибка на проверочных данных (Dev set) превышает ошибку на обучающих данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Andrew Ng Bayes error Machine Learning DeepLearning.AI Avoidable bias