Как научить ИИ выбирать правильные метрики: стэнфордский подход к оптимизации предпочтений

В рамках курса Стэнфордского университета CS329H, посвященного обучению систем искусственного интеллекта на основе человеческих предпочтений, лектор представил детальный анализ проблемы выбора и выявления метрик (metric elicitation). Центральной идеей лекции стало утверждение о том, что выбор функции потерь или оценки качества модели никогда не бывает нейтральным и коренным образом меняет поведение алгоритмов в реальном мире. На примерах знаменитого конкурса Netflix Prize и системы оценки рисков рецидивизма COMPAS профессор продемонстрировал, как сугубо математические допущения могут приводить к неожиданным экономическим потерям и тяжелым социальным последствиям.

🔄 От активного обучения к моделированию предпочтений 0:05

В начале занятия лектор напомнил ключевые тезисы прошлых встреч, связав воедино теорию максимизации полезности и методы машинного обучения. Традиционный подход предлагает рассматривать выбор человека сквозь призму латентных функций полезности, трансформируя ранжирование или бинарный выбор в классическую задачу классификации.

Однако в реальных условиях сбор человеческих оценок сопряжен со значительными трудностями. По словам профессора, люди крайне быстро устают и теряют интерес к монотонным опросам. Именно поэтому стандартная случайная разметка данных неэффективна по сравнению с механизмами активного обучения.

Активное обучение принципиально меняет подход к сбору фидбека:

Алгоритм не ждет случайных данных от внешней среды, а сам выбирает, какие именно примеры нуждаются в оценке человека.
При правильном структурировании задачи этот подход позволяет существенно снизить сложность запросов (query complexity) и обучить модель полезности гораздо быстрее.
Комбинация активного обучения и моделирования предпочтений уже доказала свою применимость на практике, например, в системах автомобильной навигации.

⚖️ Проблема асимметрии: почему точность обманчива 8:17

Главный фокус лекции был смещен с абстрактного поиска абстрактных функций полезности на конкретную область — выбор метрик для классификации с учетом стоимости ошибок (cost-sensitive classification). В стандартных курсах по машинному обучению метрика часто воспринимается как нечто заданное по умолчанию, однако в практических задачах цена разных ошибок редко бывает одинаковой.

Лектор привел классический пример из сферы медицины. Представьте классификатор, диагностирующий онкологические заболевания:

Ложноположительный результат (модель заявляет о наличии рака у здорового пациента) приводит к колоссальному стрессу и дорогостоящим повторным обследованиям.
Ложноотрицательный результат (модель пропускает болезнь у больного человека) имеет гораздо более фатальные последствия, вплоть до летального исхода.

Чтобы наглядно показать эту проблему, профессор продемонстрировал три гипотетические модели, обученные на одном и том же датасете:

Модель 1 (базовая): Обладает общей точностью (accuracy) в 90%, но при этом имеет 90% ложноположительных ответов и 5% ложноотрицательных.
Модель 2 (метод ближайших соседей): Демонстрирует чуть более низкую общую точность — 89%, однако уровень ложноположительных ошибок в ней падает до 50%.
Модель 3 (метод опорных векторов / SVM): Показывает совершенно иные пропорции распределения ошибок.

При выборе оптимальной модели разработчик неизбежно сталкивается с контекстом задачи. Если в медицине критически важно минимизировать пропуски опасных состояний, то в судебной системе ситуация зеркальная. По замечанию одного из слушателей курса, в уголовном праве ложноположительная ошибка означает неправомерное лишение свободы невиновного человека, что недопустимо. Лектор подчеркнул, что оценка качества модели — это всегда контекстуальный и сложный выбор, способный полностью перевернуть представление о том, какой результат считать успешным.

🎬 Уроки Netflix Prize: когда метрика расходится с бизнес-целью 21:19

Для иллюстрации того, как ошибочно выбранная метрика может обесценить огромные инженерные усилия, профессор обратился к истории знаменитого конкурса Netflix Prize, проходившего на рубеже 2010-х годов. Компания Netflix выделила главный приз в размере $1 млн команде, которая сможет максимально улучшить алгоритм рекомендаций фильмов.

В качестве целевой метрики организаторы выбрали корень из среднеквадратичной ошибки ($RMSE$) при прогнозировании пользовательских оценок от 1 до 5 звезд. С математической точки зрения это казалось логичным, однако, как подчеркнул лектор, это решение принципиально разошлось с реальными бизнес-целями платформы.

В рекомендательных интерфейсах ключевое значение имеет точность верхней части списка (Top-N ranking) — те первые 5 фильмов, которые пользователь видит на своем экране сразу после запуска приложения. Практика показала, что оптимизация под $RMSE$ совершенно не гарантировала качественное ранжирование топа. По словам профессора, простейшие наивные алгоритмы, опирающиеся на общую популярность контента или метод главных компонент (PCA), зачастую справлялись с формированием ленты лучше, чем сложные тяжеловесные модели участников конкурса.

Более того, лектор поделился забавным индустриальным анекдотом: Netflix в итоге так и не внедрила алгоритм команды-победителя в продакшен. Причиной стала колоссальная вычислительная сложность предложенных Bayesian-моделей и методов матричной факторизации. Внутренние разработки компании давали сопоставимый коммерческий результат при значительно меньших затратах на инфраструктуру. Тем не менее конкурс стал великолепной пиар-кампанией и окупил вложенный миллион за счет привлечения лучших умов в экосистему бренда.

🧠 Алгоритмическая справедливость и крах универсальности 27:58

Еще более драматичный пример подмены метрик связан с областью защиты гражданских прав и алгоритмической справедливости. Речь зашла о прогностическом комплексе COMPAS, созданном компанией Northpointe для оценки рисков повторного совершения преступлений (рецидивизма). Этим инструментом пользуются американские судьи при вынесении приговоров и определении меры пресечения.

Разработчики из Northpointe искренне стремились сделать алгоритм беспристрастным и ориентировались на метрику калибровки (calibration): предсказанная вероятность рецидива должна была одинаково соотноситься с реальностью для разных демографических групп.

Однако независимое расследование журналистской организации ProPublica вскрыло пугающую закономерность. Аудиторы взглянули на систему через призму других показателей — долей ложноположительных и ложноотрицательных ответов (в литературе это называется принципом равенства возможностей — Equal Opportunity). Выяснилось, что темнокожие подсудимые в два раза чаще получали ошибочно завышенные оценки риска по сравнению с белыми американцами при схожих исходных данных.

Этот прецедент спровоцировал серьезную дискуссию в научном сообществе и привел к формулированию так называемых «теорем о невозможности» в теории справедливости алгоритмов. Исследователи математически доказали:

При оценке бинарной классификации невозможно одновременно удовлетворить три ключевых критерия справедливости.
Разработчик может оптимизировать модель под одну, максимум под две метрики равенства, но третья неизбежно будет нарушена.
Поскольку универсальной формулы справедливости не существует, разные стороны с противоположными ценностными установками всегда будут приходить к разным выводам, глядя на работу одного алгоритма.

📐 Математика выявления метрик: геометрия матрицы ошибок 33:32

Чтобы разрешить эти фундаментальные противоречия, исследовательская группа лектора сфокусировалась на концепции автоматического выявления метрик, которые бы максимально точно отражали субъективные преференции конкретных стейкхолдеров.

Математический каркас этой задачи в случае бинарной классификации опирается на структуру матрицы ошибок (confusion matrix), состоящей из четырех базовых элементов: истинно положительных ($TP$), истинно отрицательных ($TN$), ложноположительных ($FP$) и ложноотрицательных ($FN$) ответов. Любая линейная метрика оценки может быть представлена как их взвешенная сумма. Лектор указал на важное свойство: масштаб весов не имеет значения, так как их пропорциональное изменение не меняет итоговое ранжирование моделей, что позволяет свести задачу к поиску относительного коэффициента $\alpha$.

Несмотря на наличие четырех квадрантов в матрице ошибок, система обладает всего двумя степенями свободы. Это объясняется тем, что сумма элементов в столбцах жестко привязана к априорному распределению классов в популяции (маргинальной вероятности $\pi = P(y=1)$), изменить которую алгоритм не в силах. В многоклассовом же сценарии, как отметил профессор, отвечая на вопрос студента, количество степеней свободы растет квадратично ($K \times (K - 1)$), что катастрофически усложняет вычисления.

Оптимальное решающее правило, максимизирующее взвешенную полезность, всегда имеет пороговый вид: мы выбираем класс $1$, если условная вероятность $P(y=1|x)$ превосходит некоторый порог $\delta$. Поскольку мы максимизируем линейную функцию на выпуклом множестве достижимых матриц ошибок, оптимум гарантированно лежит на его внешней границе — так называемом Парето-фронте, который в данном контексте эквивалентен геометрической кривой ROC (Receiver Operating Characteristic).

🔍 Поиск по границе: алгоритм бинарного поиска предпочтений 56:22

Понимание геометрии пространства позволило исследователям совершить элегантный прорыв: они свернули сложную многомерную задачу поиска весов метрики к одномерному поиску вдоль оптимальной границы Парето.

В noiseless-сценарии (когда эксперт дает абсолютно четкие и непротиворечивые ответы) для нахождения идеальной метрики идеально подходит классический бинарный поиск. Процедура выглядит следующим образом:

Вместо абстрактных коэффициентов стейкхолдеру предлагают сравнить два конкретных классификатора (точки А и B на границе ROC-кривой).
Эксперт отвечает на вопрос, какое соотношение ошибок для него предпочтительнее.
Если точка B кажется ему более удачной, алгоритм понимает, что истинный оптимум находится правее, и отсекает левую половину поискового пространства.
Шаг за шагом, сопоставляя пары (например, C и D), система локализует целевую функцию полезности человека.

Эта схема базируется на допущении об унимодальности предпочтений и строгой рациональности эксперта. Согласно математическим доказательствам, представленным в научных статьях лаборатории лектора, данный метод гарантирует достижение точности $\epsilon$ всего за $O(\log(1/\epsilon))$ шагов, что является теоретически неулучшаемой нижней границей для этой сложности запросов.

🌪️ Борьба с шумом и инверсная теория решений 1:05:22

В завершающей части лекции профессор коснулся более реалистичных и сложных сценариев, где ответы людей содержат в себе шум, когнитивные искажения и ошибки. Для работы в таких условиях детерминированный бинарный поиск заменяется вероятностным алгоритмом биссекции (probabilistic bisection algorithm). Система формирует априорное распределение (prior) над пространством возможных порогов и динамически пересчитывает вероятности (Байесовский апдейт) по мере получения зашумленных ответов от экспертов.

Также лектор упомянул концепцию инверсной теории решений (Inverse Decision Theory), заимствованную из психологической науки. Ее суть заключается в попытке восстановить внутренние скрытые мотивы и предпочтения человека на основе траектории его реальных выборов на микроуровне. Вместо того чтобы заставлять пользователя оперировать сложными макропоказателями популяции, алгоритм просит его оценить конкретные точечные прецеденты.

Тем не менее лектор честно признал, что разрыв между строгими математическими абстракциями и человеко-компьютерным взаимодействием (HCI) остается одной из главных открытых проблем в этой области. Полноценное внедрение подобных систем требует от стейкхолдеров высокого уровня экспертности, так как им приходится делать выбор, глубоко понимая долгосрочные популяционные последствия принимаемых алгоритмических решений.