# Эндрю Ын: «Ваша задача — решать проблему бизнеса, а не просто показывать точность на тестах»

Источник: https://www.youtube.com/watch?v=fiDmWKh_WeQ
Канал: DeepLearning.AI
Опубликовано: 21.04.2022

---

В рамках курса по инженерии машинного обучения для продакшена (MLOps) Эндрю Ын, основатель DeepLearning.AI и один из самых известных экспертов в области ИИ, подробно разбирает ситуации, когда высокая точность на тестовом наборе данных не гарантирует успех продукта. По мнению спикера, инженерная задача заключается не в «красивых цифрах» в отчетах, а в создании систем, реально решающих бизнес-задачи.

## 🎯 Почему «средней точности» недостаточно для продакшена
[[JUMP:0:01]]

Эндрю Ын утверждает, что работа ML-инженера была бы гораздо проще, если бы единственной целью было достижение высоких показателей на отложенной (holdout) тестовой выборке [0:01]. Однако в реальных производственных условиях этого недостаточно. Даже если система показывает низкую среднюю ошибку, она может оказаться непригодной для развертывания, если она ошибается на специфических, критически важных примерах [0:42].

По словам Ына, средняя точность имеет свойство «уравнивать» все примеры, придавая им одинаковый вес [2:26]. В реальности же:

*   Некоторые группы данных (слайсы) важнее других для бизнеса.
*   Ошибки на редких классах могут быть недопустимы с этической или медицинской точки зрения.
*   Пользователи по-разному реагируют на ошибки в зависимости от типа своего запроса.

## 🔍 Кейс веб-поиска: Навигационные и информационные запросы
[[JUMP:0:54]]

Эндрю Ын разделяет поисковые запросы на несколько категорий, чтобы проиллюстрировать разную «цену ошибки» для пользователя [0:54]:

1.  **Информационные и транзакционные запросы.** Например, «рецепты яблочного пирога», «последние фильмы» или «тарифные планы» [1:06]. В таких случаях пользователь ищет наиболее релевантную информацию или хочет совершить покупку. Если поисковик выдаст «лучший» рецепт на втором или третьем месте, пользователь, скорее всего, проявит снисходительность, так как в сети существует множество хороших вариантов [1:31].
2.  **Навигационные запросы.** Это запросы с четким намерением перейти на конкретный ресурс: «Stanford», «Reddit» или «YouTube» [1:44].

Как считает Ын, в случае навигационных запросов пользователи крайне нетерпимы к ошибкам [1:59]. Если по запросу «Stanford» поисковая система не выдаст официальный сайт университета (`stanford.edu`) на первой позиции, она мгновенно начнет терять доверие аудитории [2:12]. Эти примеры являются непропорционально важными: даже если новый алгоритм улучшает общую среднюю точность поиска, но «ломает» выдачу по горстке навигационных запросов, он не может быть допущен к релизу [2:26].

## ⚖️ Справедливость и работа с ключевыми срезами данных
[[JUMP:3:07]]

Важным аспектом MLOps является анализ производительности модели на «ключевых срезах» (key slices) данных. Эндрю Ын приводит в пример систему одобрения кредитов [3:07].

По словам спикера, такая система обязана соответствовать ряду требований:

*   **Отсутствие дискриминации.** Модель не должна ущемлять права заявителей на основе пола, этнической принадлежности, местоположения или языка [3:21].
*   **Соблюдение законов.** Во многих странах существуют строгие нормативные акты, запрещающие предвзятость по так называемым «защищенным атрибутам» (protected attributes) [3:45].

Даже при высочайшей средней точности модель будет отклонена, если она демонстрирует недопустимый уровень предвзятости в отношении конкретной социальной группы [4:01].

Аналогичная логика применима и к e-commerce платформам [4:14]. Ын подчеркивает, что алгоритм рекомендаций должен быть справедлив не только к пользователям, но и к продавцам:

*   **Поддержка малых брендов.** Если система рекомендует только товары крупных ритейлеров, игнорируя малый бизнес, это может нанести долгосрочный вред экосистеме платформы [5:06].
*   **Охват категорий.** Если алгоритм по какой-то причине перестанет рекомендовать электронику (даже если это чуть-чуть повысит общую релевантность выдачи за счет других товаров), продавцы электроники будут справедливо возмущены, что навредит бизнесу [5:31].

## 🏥 Ловушка редких классов и «эффект печати нуля»
[[JUMP:6:11]]

В задачах с несбалансированными данными (skewed data distributions) стандартная метрика точности (accuracy) может быть абсолютно бесполезной. Эндрю Ын приводит классический пример из медицинской диагностики: если 99% населения здоровы, программа, которая всегда выдает результат «здоров» (`print 0`), будет иметь точность 99% [6:41].

Спикер поделился личной историей: однажды его команда обучила огромную нейросеть, которая показала впечатляющие 99% точности. Однако при детальном анализе выяснилось, что сеть просто научилась всегда выдавать ноль [7:05].

Другой пример связан с работой Эндрю Ына и Пранава Раджпуркара над диагностикой по рентгеновским снимкам грудной клетки [7:32]:

*   Для распространенных состояний, таких как **выпот** (effusion), было около 10 000 изображений, что позволяло достичь высокой точности [8:01].
*   Для редкого состояния, например, **грыжи** (hernia), было всего около 100 снимков [8:15].

С медицинской точки зрения недопустимо, чтобы система пропускала очевидные случаи грыжи. Однако, поскольку этот класс был редким, алгоритм мог полностью игнорировать его, практически не теряя в средней точности на общем тестовом наборе [8:56].

## 🤝 Конфликт инженера и бизнеса: Как найти общий язык
[[JUMP:9:21]]

Эндрю Ын описывает типичный диалог, который он многократно наблюдал в разных компаниях [9:21]:
— **ML-инженер:** «Я получил отличные результаты на тестах, это работает, давайте внедрять!»
— **Владелец продукта:** «Но это не работает для моего приложения/бизнеса».
— **ML-инженер:** «Но ведь на тестах всё хорошо!»

Спикер призывает инженеров не занимать оборонительную позицию (don't get defensive) [9:48]. Он напоминает, что сообщество создало отличные инструменты для работы с тестовыми выборками, но цель работы — не цифра, а решение реальной прикладной задачи [10:13].

В качестве решения Ын предлагает использовать более глубокий анализ ошибок (error analysis), в том числе по конкретным срезам данных. Это позволит обнаружить и устранить проблемы, которые скрываются за «красивыми» средними показателями.