В сфере машинного обучения выбор метрик оценки и формирование проверочных (dev) и тестовых (test) наборов данных подобны установке мишени, в которую должна целиться команда разработчиков. Однако в процессе работы может выясниться, что мишень установлена не в том месте. Основатель DeepLearning.AI Эндрю Ын объясняет, почему умение вовремя изменить критерии оценки важнее, чем строгое следование первоначальному плану, и как это влияет на успех продукта в реальных условиях.
🎯 Когда мишень стоит не на месте: проблема неадекватных метрик 0:00
Эндрю Ын сравнивает метрику оценки с мишенью для стрельбы. Основная задача — установить её так, чтобы команда могла эффективно итеративно улучшать алгоритм . Однако иногда стандартные показатели, такие как ошибка классификации, не отражают реальных предпочтений пользователей или бизнеса.
В качестве примера Ын приводит разработку классификатора кошачьих изображений:
- Алгоритм А: имеет 3% ошибки, но иногда ошибочно пропускает порнографический контент .
- Алгоритм B: имеет 5% ошибки, но никогда не показывает неприемлемые изображения .
С точки зрения сухой математики алгоритм А кажется лучше. Однако для компании и конечного пользователя алгоритм B является предпочтительным, так как он безопасен . По мнению Ына, если метрика оценки перестает правильно ранжировать алгоритмы в соответствии с вашими истинными предпочтениями, это явный сигнал: пора менять либо саму метрику, либо проверочные и тестовые наборы данных .
🛠 Математическая корректировка: введение весовых коэффициентов 2:12
Стандартная формула ошибки классификации обычно рассматривает все ошибки как равнозначные. Она подсчитывает количество неверно предсказанных меток и делит их на общее количество примеров в наборе .
Чтобы решить проблему «неприемлемого контента», Ын предлагает модифицировать метрику, добавив весовой коэффициент $W_i$ для каждого примера:
- Если изображение не является порнографическим, вес $W_i$ принимается равным 1 .
- Если изображение содержит порнографию, вес $W_i$ может составлять 10, 100 или даже больше .
Такой подход заставляет алгоритм нести гораздо более суровое «наказание» за критические ошибки. По словам эксперта, конкретные значения весов не так важны, как сам принцип . Главное — чтобы метрика снова начала корректно отражать, какой алгоритм на самом деле лучше подходит для вашего приложения . Ын подчеркивает: если вы недовольны текущей метрикой, не стоит продолжать работать с ней по инерции — нужно определить новую, которая будет лучше соответствовать вашим целям .
🏹 Философия двух шагов: разделение «мишени» и «стрельбы» 5:48
Эндрю Ын предлагает разделять решение любой задачи машинного обучения на два независимых этапа. Он называет это метафорой «двух ручек настройки»:
- Шаг 1: Установка мишени. На этом этапе вы решаете, как именно вы будете оценивать результат. Это определение метрики, которая захватывает суть того, что вы хотите достичь .
- Шаг 2: Прицеливание и стрельба. Это отдельная техническая задача — как заставить алгоритм показывать хорошие результаты по выбранной метрике. Например, это может включать изменение функции потерь ($J$), которую оптимизирует нейронная сеть .
По мнению Ына, смешивание этих задач затрудняет процесс разработки . Сначала нужно понять, где должна стоять мишень (метрика), и только потом думать о том, как в неё попасть (оптимизация стоимости/функции потерь) .
📱 Проблема несоответствия данных: интернет против реальности 8:00
Вторая причина смены ориентиров — несоответствие распределения данных в проверочном наборе и в реальном продукте. Ын приводит пример еще одной ситуации с классификатором кошек.
Команда может тренировать и тестировать модель на высококачественных, четких фотографиях, скачанных из интернета . Однако после запуска мобильного приложения выясняется, что пользователи загружают совершенно другие фото:
- Мутные и нечеткие снимки .
- Изображения с плохим кадрированием.
- Фотографии, сделанные в необычных ракурсах или при плохом освещении .
Если алгоритм А лучше работает на студийных фото, а алгоритм B — на реальных снимках пользователей, то более высокая точность на старом тестовом наборе становится бессмысленной . Рекомендация Эндрю Ына однозначна: если текущие метрики и данные не предсказывают успех приложения в реальной эксплуатации, необходимо менять проверочные и тестовые наборы так, чтобы они отражали реальные данные, с которыми столкнется алгоритм .
🚀 Скорость итераций важнее совершенства на старте 9:55
В завершение Эндрю Ын дает практический совет по управлению командами. Наличие четкой метрики и проверочного набора критически важно для скорости разработки, так как позволяет быстро принимать решения в стиле «какой алгоритм лучше — А или B?» .
Основные тезисы его стратегии:
- Не ждите идеала. Лучше быстро создать «черновую» метрику и набор данных, чтобы команда могла начать движение, чем работать вообще без них .
- Меняйте на ходу. Совершенно нормально обнаружить через месяц, что ваша метрика была несовершенной, и изменить её .
- Избегайте стагнации. Самая большая ошибка многих команд — слишком долгая работа без формализованной системы оценки, что фатально замедляет прогресс .
Таким образом, динамичное управление целями — это не признак неопределенности, а необходимый инструмент для создания действительно эффективных систем искусственного интеллекта.