Как научить ИИ выбирать правильные метрики: стэнфордский подход к оптимизации предпочтений

Stanford Online 1,3 тыс. 1 ч 22 мин 7 мин 11.09.2025
Главное

В рамках курса Стэнфордского университета CS329H, посвященного обучению систем искусственного интеллекта на основе человеческих предпочтений, лектор представил детальный анализ проблемы выбора и выявления метрик (metric elicitation). Центральной идеей лекции стало утверждение о том, что выбор функции потерь или оценки качества модели никогда не бывает нейтральным и коренным образом меняет поведение алгоритмов в реальном мире. На примерах знаменитого конкурса Netflix Prize и системы оценки рисков рецидивизма COMPAS профессор продемонстрировал, как сугубо математические допущения могут приводить к неожиданным экономическим потерям и тяжелым социальным последствиям.

🔄 От активного обучения к моделированию предпочтений 0:05

В начале занятия лектор напомнил ключевые тезисы прошлых встреч, связав воедино теорию максимизации полезности и методы машинного обучения. Традиционный подход предлагает рассматривать выбор человека сквозь призму латентных функций полезности, трансформируя ранжирование или бинарный выбор в классическую задачу классификации.

Однако в реальных условиях сбор человеческих оценок сопряжен со значительными трудностями. По словам профессора, люди крайне быстро устают и теряют интерес к монотонным опросам. Именно поэтому стандартная случайная разметка данных неэффективна по сравнению с механизмами активного обучения.

Активное обучение принципиально меняет подход к сбору фидбека:

⚖️ Проблема асимметрии: почему точность обманчива 8:17

Главный фокус лекции был смещен с абстрактного поиска абстрактных функций полезности на конкретную область — выбор метрик для классификации с учетом стоимости ошибок (cost-sensitive classification). В стандартных курсах по машинному обучению метрика часто воспринимается как нечто заданное по умолчанию, однако в практических задачах цена разных ошибок редко бывает одинаковой.

Лектор привел классический пример из сферы медицины. Представьте классификатор, диагностирующий онкологические заболевания:

Чтобы наглядно показать эту проблему, профессор продемонстрировал три гипотетические модели, обученные на одном и том же датасете:

При выборе оптимальной модели разработчик неизбежно сталкивается с контекстом задачи. Если в медицине критически важно минимизировать пропуски опасных состояний, то в судебной системе ситуация зеркальная. По замечанию одного из слушателей курса, в уголовном праве ложноположительная ошибка означает неправомерное лишение свободы невиновного человека, что недопустимо. Лектор подчеркнул, что оценка качества модели — это всегда контекстуальный и сложный выбор, способный полностью перевернуть представление о том, какой результат считать успешным.

🎬 Уроки Netflix Prize: когда метрика расходится с бизнес-целью 21:19

Для иллюстрации того, как ошибочно выбранная метрика может обесценить огромные инженерные усилия, профессор обратился к истории знаменитого конкурса Netflix Prize, проходившего на рубеже 2010-х годов. Компания Netflix выделила главный приз в размере $1 млн команде, которая сможет максимально улучшить алгоритм рекомендаций фильмов.

В качестве целевой метрики организаторы выбрали корень из среднеквадратичной ошибки ($RMSE$) при прогнозировании пользовательских оценок от 1 до 5 звезд. С математической точки зрения это казалось логичным, однако, как подчеркнул лектор, это решение принципиально разошлось с реальными бизнес-целями платформы.

В рекомендательных интерфейсах ключевое значение имеет точность верхней части списка (Top-N ranking) — те первые 5 фильмов, которые пользователь видит на своем экране сразу после запуска приложения. Практика показала, что оптимизация под $RMSE$ совершенно не гарантировала качественное ранжирование топа. По словам профессора, простейшие наивные алгоритмы, опирающиеся на общую популярность контента или метод главных компонент (PCA), зачастую справлялись с формированием ленты лучше, чем сложные тяжеловесные модели участников конкурса.

Более того, лектор поделился забавным индустриальным анекдотом: Netflix в итоге так и не внедрила алгоритм команды-победителя в продакшен. Причиной стала колоссальная вычислительная сложность предложенных Bayesian-моделей и методов матричной факторизации. Внутренние разработки компании давали сопоставимый коммерческий результат при значительно меньших затратах на инфраструктуру. Тем не менее конкурс стал великолепной пиар-кампанией и окупил вложенный миллион за счет привлечения лучших умов в экосистему бренда.

🧠 Алгоритмическая справедливость и крах универсальности 27:58

Еще более драматичный пример подмены метрик связан с областью защиты гражданских прав и алгоритмической справедливости. Речь зашла о прогностическом комплексе COMPAS, созданном компанией Northpointe для оценки рисков повторного совершения преступлений (рецидивизма). Этим инструментом пользуются американские судьи при вынесении приговоров и определении меры пресечения.

Разработчики из Northpointe искренне стремились сделать алгоритм беспристрастным и ориентировались на метрику калибровки (calibration): предсказанная вероятность рецидива должна была одинаково соотноситься с реальностью для разных демографических групп.

Однако независимое расследование журналистской организации ProPublica вскрыло пугающую закономерность. Аудиторы взглянули на систему через призму других показателей — долей ложноположительных и ложноотрицательных ответов (в литературе это называется принципом равенства возможностей — Equal Opportunity). Выяснилось, что темнокожие подсудимые в два раза чаще получали ошибочно завышенные оценки риска по сравнению с белыми американцами при схожих исходных данных.

Этот прецедент спровоцировал серьезную дискуссию в научном сообществе и привел к формулированию так называемых «теорем о невозможности» в теории справедливости алгоритмов. Исследователи математически доказали:

  1. При оценке бинарной классификации невозможно одновременно удовлетворить три ключевых критерия справедливости.
  2. Разработчик может оптимизировать модель под одну, максимум под две метрики равенства, но третья неизбежно будет нарушена.
  3. Поскольку универсальной формулы справедливости не существует, разные стороны с противоположными ценностными установками всегда будут приходить к разным выводам, глядя на работу одного алгоритма.

📐 Математика выявления метрик: геометрия матрицы ошибок 33:32

Чтобы разрешить эти фундаментальные противоречия, исследовательская группа лектора сфокусировалась на концепции автоматического выявления метрик, которые бы максимально точно отражали субъективные преференции конкретных стейкхолдеров.

Математический каркас этой задачи в случае бинарной классификации опирается на структуру матрицы ошибок (confusion matrix), состоящей из четырех базовых элементов: истинно положительных ($TP$), истинно отрицательных ($TN$), ложноположительных ($FP$) и ложноотрицательных ($FN$) ответов. Любая линейная метрика оценки может быть представлена как их взвешенная сумма. Лектор указал на важное свойство: масштаб весов не имеет значения, так как их пропорциональное изменение не меняет итоговое ранжирование моделей, что позволяет свести задачу к поиску относительного коэффициента $\alpha$.

Несмотря на наличие четырех квадрантов в матрице ошибок, система обладает всего двумя степенями свободы. Это объясняется тем, что сумма элементов в столбцах жестко привязана к априорному распределению классов в популяции (маргинальной вероятности $\pi = P(y=1)$), изменить которую алгоритм не в силах. В многоклассовом же сценарии, как отметил профессор, отвечая на вопрос студента, количество степеней свободы растет квадратично ($K \times (K - 1)$), что катастрофически усложняет вычисления.

Оптимальное решающее правило, максимизирующее взвешенную полезность, всегда имеет пороговый вид: мы выбираем класс $1$, если условная вероятность $P(y=1|x)$ превосходит некоторый порог $\delta$. Поскольку мы максимизируем линейную функцию на выпуклом множестве достижимых матриц ошибок, оптимум гарантированно лежит на его внешней границе — так называемом Парето-фронте, который в данном контексте эквивалентен геометрической кривой ROC (Receiver Operating Characteristic).

🔍 Поиск по границе: алгоритм бинарного поиска предпочтений 56:22

Понимание геометрии пространства позволило исследователям совершить элегантный прорыв: они свернули сложную многомерную задачу поиска весов метрики к одномерному поиску вдоль оптимальной границы Парето.

В noiseless-сценарии (когда эксперт дает абсолютно четкие и непротиворечивые ответы) для нахождения идеальной метрики идеально подходит классический бинарный поиск. Процедура выглядит следующим образом:

  1. Вместо абстрактных коэффициентов стейкхолдеру предлагают сравнить два конкретных классификатора (точки А и B на границе ROC-кривой).
  2. Эксперт отвечает на вопрос, какое соотношение ошибок для него предпочтительнее.
  3. Если точка B кажется ему более удачной, алгоритм понимает, что истинный оптимум находится правее, и отсекает левую половину поискового пространства.
  4. Шаг за шагом, сопоставляя пары (например, C и D), система локализует целевую функцию полезности человека.

Эта схема базируется на допущении об унимодальности предпочтений и строгой рациональности эксперта. Согласно математическим доказательствам, представленным в научных статьях лаборатории лектора, данный метод гарантирует достижение точности $\epsilon$ всего за $O(\log(1/\epsilon))$ шагов, что является теоретически неулучшаемой нижней границей для этой сложности запросов.

🌪️ Борьба с шумом и инверсная теория решений 1:05:22

В завершающей части лекции профессор коснулся более реалистичных и сложных сценариев, где ответы людей содержат в себе шум, когнитивные искажения и ошибки. Для работы в таких условиях детерминированный бинарный поиск заменяется вероятностным алгоритмом биссекции (probabilistic bisection algorithm). Система формирует априорное распределение (prior) над пространством возможных порогов и динамически пересчитывает вероятности (Байесовский апдейт) по мере получения зашумленных ответов от экспертов.

Также лектор упомянул концепцию инверсной теории решений (Inverse Decision Theory), заимствованную из психологической науки. Ее суть заключается в попытке восстановить внутренние скрытые мотивы и предпочтения человека на основе траектории его реальных выборов на микроуровне. Вместо того чтобы заставлять пользователя оперировать сложными макропоказателями популяции, алгоритм просит его оценить конкретные точечные прецеденты.

Тем не менее лектор честно признал, что разрыв между строгими математическими абстракциями и человеко-компьютерным взаимодействием (HCI) остается одной из главных открытых проблем в этой области. Полноценное внедрение подобных систем требует от стейкхолдеров высокого уровня экспертности, так как им приходится делать выбор, глубоко понимая долгосрочные популяционные последствия принимаемых алгоритмических решений.

💬 Цитаты

«Люди очень быстро устают. И поэтому высокая эффективность при попытке получить примеры от людей — это благо.»

«Выбор метрик оценки или функций полезности может быть столь же важен, как и любой другой выбор в дизайне вашей модели.»

«По сути, не существует универсальности. Разные метрики будут оптимизировать разные вещи как справедливый результат.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Metric elicitation
Процесс систематического определения и построения математической метрики качества ИИ, которая максимально точно отражает внутренние предпочтения человека.
Confusion matrix
Таблица (матрица ошибок), демонстрирующая количество истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных ответов модели.
Query complexity
Показатель в теории обучения, определяющий минимальное число вопросов или запросов к эксперту, необходимых для решения задачи.
Pareto frontier
Множество вариантов (в данном случае — классификаторов), которые невозможно улучшить по одному показателю без ухудшения по другому.
Probabilistic bisection algorithm
Вероятностный аналог алгоритма бинарного поиска, устойчивый к зашумленным или ошибочным ответам источника информации.
📊 Цифры
🗓 Хронология
  1. 2010-е годы Период проведения и завершения знакового для индустрии конкурса Netflix Prize.
  2. 2016 год Публикация громкого расследования ProPublica о дискриминации в алгоритмах COMPAS, подтолкнувшая развитие математической теории справедливости.
  3. Осень 2024 года Проведение лекции курса CS329H в Стэнфордском университете, легшей в основу материала.
⚖️ Другая сторона
Искусственный интеллект Stanford Online metric elicitation Netflix prize COMPAS матрица ошибок