В рамках курса Stanford CS329H «Машинное обучение на основе человеческих предпочтений» (осень 2024 года) рассматривается тема дизайна механизмов — дисциплины, которую называют «наукой о создании правил». Лектор объясняет, как проектировать системы так, чтобы даже при стратегическом и эгоистичном поведении участников итоговый результат оставался общественно полезным, и как эти концепции применяются в современных технологических гигантах вроде Google и Amazon.
🛠 Дизайн механизмов: «Наука о законотворчестве» 1:16
Дизайн механизмов (mechanism design) — это область, изучающая создание правил игры, которые ведут к желаемому результату, даже если участники действуют в собственных интересах или ведут себя враждебно . Если в теории общественного выбора (social choice) дизайнер решает, какой исход является предпочтительным, то в дизайне механизмов задача стоит шире: определить такие правила взаимодействия, при которых стратегические акторы не смогут «сломать» систему ради собственной выгоды .
Основные сферы применения и заимствования:
- Экономика и теория игр: Традиционная база дисциплины .
- Компьютерные науки (CS): С появлением крупных интернет-компаний дизайн механизмов стал критически важен для решения вычислительных задач .
- Машинное обучение: Вопросы обучения моделей внутри механизмов и работа с данными в стратегической среде .
Лектор отмечает, что исторически одним из самых успешных примеров применения этой теории стала дерегуляция радиочастотного спектра. Использование аукционных механизмов позволило государству распределить частоты между компаниями, которые извлекали из них максимальную пользу, несмотря на их стремление минимизировать затраты .
💰 Экономика гигантов: Как аукционы питают Google и Facebook 5:06
Современные веб-технологии во многом держатся на дизайне механизмов. Алгоритмы ценообразования и ранжирования товаров на Amazon, а также процессы покупки рекламы в поисковиках напрямую используют эти идеи .
Масштабы влияния технологии в цифрах (данные на 2016 год):
- Google: Доход от рекламы составил $79 млрд при общей выручке в $89,6 млрд. Подавляющая часть этих денег прошла через механизмы аукционов .
- Facebook: Почти весь доход компании завязан на рекламных аукционах; всё остальное лектор называет «ошибкой округления» по сравнению с этой статьей доходов .
Ключевой вопрос, который ставит дизайн механизмов перед инженером: как выявить истинные экономические предпочтения покупателей? . Механизм должен решить, кому достанется товар и сколько победитель заплатит, стремясь к «социально желаемому» результату — например, чтобы товар получил тот, кто ценит его больше всего, и заплатил цену, соразмерную этой ценности .
⚖️ Аукцион Викри и проблема правдивости 13:35
Обычная установка фиксированной цены не дает дизайнеру информации о реальной ценности товара для покупателя — мы узнаем лишь то, что цена была ниже внутреннего порога покупателя . В аукционах ситуация сложнее. При стандартном подходе участники склонны вести себя стратегически: например, делать ставку чуть выше конкурента, а не называть свою истинную цену .
Решением стал аукцион второй цены (аукцион Викри), за который Уильям Викри получил Нобелевскую премию .
Принципы работы аукциона второй цены:
- Все участники подают закрытые ставки.
- Побеждает тот, чья ставка выше всех.
- Победитель платит цену, равную второй по величине ставке .
По словам лектора, этот механизм обладает свойством стимулирующей совместимости (Incentive Compatibility, IC) . Это означает, что для любого участника самая выгодная стратегия — называть свою честную цену .
Аргументация в пользу честности:
- Если вы поставите больше своей реальной цены, вы рискуете выиграть, но заплатить больше, чем вещь для вас стоит (отрицательная полезность) .
- Если вы поставите меньше, вы можете проиграть аукцион, который могли бы выиграть с выгодой для себя (нулевая полезность вместо положительной) .
📈 Максимизация прибыли и виртуальные ценности Майерсона 47:37
Хотя аукцион второй цены гарантирует честность, он не всегда максимизирует доход продавца . В 1981 году Роджер Майерсон (еще один лауреат Нобелевской премии) предложил механизм для максимизации выручки в аукционах на один предмет .
Майерсон ввел понятие виртуальных ценностей — функции, которая корректирует ставку покупателя с учетом распределения вероятностей его предпочтений .
Процедура Майерсона:
- Вычисляются виртуальные ценности для всех участников.
- Если все значения меньше нуля, товар не продается .
- Если есть значения выше нуля, товар получает участник с самой высокой виртуальной ценностью.
- Победитель платит цену, рассчитанную через обратную функцию от второй максимальной виртуальной ценности .
Лектор подчеркивает удивительный факт: хотя для одного предмета решение найдено, в экономической науке до сих пор нет доказанно оптимального механизма даже для двух предметов .
🤖 Механизмы и машинное обучение: Обучение ставкам 54:39
В современных системах дизайн механизмов тесно переплетается с ML-моделями, которые предсказывают цены или вероятность клика . Здесь возникают задачи онлайн-обучения и минимизации регрета (сожаления) — разницы между фактически полученным доходом и лучшим возможным доходом, который можно было бы получить, зная будущее .
Рассматриваются несколько классических задач:
- Задача о секретаре: Покупатели прибывают в случайном порядке, но их оценки товара могут быть враждебными .
- Проблемы пророков (Prophet inequalities): Покупатели прибывают в «враждебном» порядке, но их оценки распределены стохастически .
- Выявленные предпочтения: Обучение функции предпочтений на основе наблюдений за действиями покупателей во времени .
🖼 Асимметрия информации и цифровые товары (LLM) 1:00:23
Лектор приводит пример уникальной проблемы ценообразования в сфере генеративного ИИ. В обычных аукционах покупатель знает, за что борется. В случае с LLM-ответами возникает информационная асимметрия: покупатель не знает ценности ответа (prompt completion), пока он не сгенерирован, а продавец уже затратил вычислительные ресурсы .
В качестве аналогии приводится история с уничтоженной картиной Бэнкси: в момент продажи произведение искусства начало самоликвидироваться через шредер . Для покупателя это было неожиданностью (информационная асимметрия), но в итоге историческая значимость события лишь подняла цену актива .
Для цифровых товаров предложен механизм на основе парных сравнений:
- Система предсказывает ценность ответа для конкретного пользователя на основе его прошлых реакций (лайки, дизлайки) .
- Используется аукцион второй цены, но на основе предсказанных ставок .
- Это позволяет распределять ограниченные вычислительные ресурсы тем пользователям, для которых конкретный ответ будет наиболее ценным .
⚠️ Реверсивные аукционы для разметки токсичного контента 1:15:17
Одним из самых провокационных предложений лектора является использование дизайна механизмов для компенсации вреда сотрудникам, размечающим токсичные данные .
Разметка психологически тяжелого контента наносит разный ущерб разным людям. По мнению лектора, вместо единой фиксированной ставки можно использовать адаптивную систему платежей :
- Цена разметки должна коррелировать с индивидуальным психологическим вредом, который наносится конкретному человеку .
- Это реализуется через реверсивный аукцион, где цель — не максимизировать выручку, а минимизировать совокупный вред (негативную полезность) .
- Использование парной обратной связи позволяет точнее оценивать «порог чувствительности» каждого разметчика без необходимости собирать избыточные личные данные .
Хотя лектор оговаривается, что это не является «нормативным требованием» и идеальным решением всех проблем , такой подход может стать рычагом для создания более справедливой и менее травмирующей экосистемы работы с данными в ИИ .