# Эндрю Ын: «Если метрика не работает, смените её»

Источник: https://www.youtube.com/watch?v=DFUqMbWs5d8
Канал: DeepLearning.AI
Опубликовано: 25.08.2017

---

В сфере машинного обучения выбор метрик оценки и формирование проверочных (dev) и тестовых (test) наборов данных подобны установке мишени, в которую должна целиться команда разработчиков. Однако в процессе работы может выясниться, что мишень установлена не в том месте. Основатель DeepLearning.AI Эндрю Ын объясняет, почему умение вовремя изменить критерии оценки важнее, чем строгое следование первоначальному плану, и как это влияет на успех продукта в реальных условиях.

## 🎯 Когда мишень стоит не на месте: проблема неадекватных метрик
[[JUMP:0:00]]

Эндрю Ын сравнивает метрику оценки с мишенью для стрельбы. Основная задача — установить её так, чтобы команда могла эффективно итеративно улучшать алгоритм [0:00]. Однако иногда стандартные показатели, такие как ошибка классификации, не отражают реальных предпочтений пользователей или бизнеса.

В качестве примера Ын приводит разработку классификатора кошачьих изображений:

*   **Алгоритм А:** имеет 3% ошибки, но иногда ошибочно пропускает порнографический контент [0:27].
*   **Алгоритм B:** имеет 5% ошибки, но никогда не показывает неприемлемые изображения [1:06].

С точки зрения сухой математики алгоритм А кажется лучше. Однако для компании и конечного пользователя алгоритм B является предпочтительным, так как он безопасен [1:19]. По мнению Ына, если метрика оценки перестает правильно ранжировать алгоритмы в соответствии с вашими истинными предпочтениями, это явный сигнал: пора менять либо саму метрику, либо проверочные и тестовые наборы данных [1:59].

## 🛠 Математическая корректировка: введение весовых коэффициентов
[[JUMP:2:12]]

Стандартная формула ошибки классификации обычно рассматривает все ошибки как равнозначные. Она подсчитывает количество неверно предсказанных меток и делит их на общее количество примеров в наборе [2:38].

Чтобы решить проблему «неприемлемого контента», Ын предлагает модифицировать метрику, добавив весовой коэффициент $W_i$ для каждого примера:

1.  Если изображение не является порнографическим, вес $W_i$ принимается равным 1 [3:47].
2.  Если изображение содержит порнографию, вес $W_i$ может составлять 10, 100 или даже больше [4:01].

Такой подход заставляет алгоритм нести гораздо более суровое «наказание» за критические ошибки. По словам эксперта, конкретные значения весов не так важны, как сам принцип [4:27]. Главное — чтобы метрика снова начала корректно отражать, какой алгоритм на самом деле лучше подходит для вашего приложения [5:06]. Ын подчеркивает: если вы недовольны текущей метрикой, не стоит продолжать работать с ней по инерции — нужно определить новую, которая будет лучше соответствовать вашим целям [5:32].

## 🏹 Философия двух шагов: разделение «мишени» и «стрельбы»
[[JUMP:5:48]]

Эндрю Ын предлагает разделять решение любой задачи машинного обучения на два независимых этапа. Он называет это метафорой «двух ручек настройки»:

*   **Шаг 1: Установка мишени.** На этом этапе вы решаете, как именно вы будете оценивать результат. Это определение метрики, которая захватывает суть того, что вы хотите достичь [6:17].
*   **Шаг 2: Прицеливание и стрельба.** Это отдельная техническая задача — как заставить алгоритм показывать хорошие результаты по выбранной метрике. Например, это может включать изменение функции потерь ($J$), которую оптимизирует нейронная сеть [6:47].

По мнению Ына, смешивание этих задач затрудняет процесс разработки [6:01]. Сначала нужно понять, где должна стоять мишень (метрика), и только потом думать о том, как в неё попасть (оптимизация стоимости/функции потерь) [7:43].

## 📱 Проблема несоответствия данных: интернет против реальности
[[JUMP:8:00]]

Вторая причина смены ориентиров — несоответствие распределения данных в проверочном наборе и в реальном продукте. Ын приводит пример еще одной ситуации с классификатором кошек.

Команда может тренировать и тестировать модель на высококачественных, четких фотографиях, скачанных из интернета [8:08]. Однако после запуска мобильного приложения выясняется, что пользователи загружают совершенно другие фото:

*   Мутные и нечеткие снимки [8:35].
*   Изображения с плохим кадрированием.
*   Фотографии, сделанные в необычных ракурсах или при плохом освещении [9:14].

Если алгоритм А лучше работает на студийных фото, а алгоритм B — на реальных снимках пользователей, то более высокая точность на старом тестовом наборе становится бессмысленной [8:47]. Рекомендация Эндрю Ына однозначна: если текущие метрики и данные не предсказывают успех приложения в реальной эксплуатации, необходимо менять проверочные и тестовые наборы так, чтобы они отражали реальные данные, с которыми столкнется алгоритм [9:26].

## 🚀 Скорость итераций важнее совершенства на старте
[[JUMP:9:55]]

В завершение Эндрю Ын дает практический совет по управлению командами. Наличие четкой метрики и проверочного набора критически важно для скорости разработки, так как позволяет быстро принимать решения в стиле «какой алгоритм лучше — А или B?» [10:07].

Основные тезисы его стратегии:

*   **Не ждите идеала.** Лучше быстро создать «черновую» метрику и набор данных, чтобы команда могла начать движение, чем работать вообще без них [10:20].
*   **Меняйте на ходу.** Совершенно нормально обнаружить через месяц, что ваша метрика была несовершенной, и изменить её [10:33].
*   **Избегайте стагнации.** Самая большая ошибка многих команд — слишком долгая работа без формализованной системы оценки, что фатально замедляет прогресс [10:46].

Таким образом, динамичное управление целями — это не признак неопределенности, а необходимый инструмент для создания действительно эффективных систем искусственного интеллекта.