Как ценовые роботы учатся монопольному сговору без человека

В рамках лекционного курса Массачусетского технологического института (MIT) профессор Гленн Эллисон подробно разбирает механизмы динамической конкуренции и сговора на рынке. В центре внимания экономистов оказывается вопрос о том, почему классические статические модели не объясняют реальные наценки и как конкуренция в долгосрочной перспективе меняет стратегии компаний. Особый акцент лектор делает на феномене «алгоритмического сговора», при котором современные ценовые роботы самостоятельно учатся завышать цены без прямого сговора между людьми.

📊 Эволюция рыночных наценок: почему статика не работает 0:17

Изучение динамической конкуренции имеет решающее значение для понимания реальной экономики, поскольку большинство современных рынков функционируют именно в непрерывном временном режиме. Профессор Гленн Эллисон приводит в пример такие компании, как T-Mobile, Verizon или кабельные операторы, которые конкурируют друг с другом из периода в период. На подобных рынках, как правило, присутствует лишь небольшое количество игроков, что отражает высокие барьеры для входа, вынуждая одни и те же фирмы сталкиваться друг с другом снова и снова.

Традиционная экономическая теория выделяет несколько источников рыночных наценок, среди которых ключевыми считаются дифференциация продуктов и издержки потребителей на поиск информации. Однако динамический сговор, по мнению лектора, выступает не менее мощным потенциальным источником завышения цен. В качестве эмпирического подтверждения этого тезиса Эллисон ссылается на исследование Рая Миллера и Вайнберга, посвященное слиянию пивоваренных гигантов Miller и Coors. Авторы той работы пришли к выводу, что после сделки объединенная компания Miller-Coors, а также их главный конкурент AB InBev, перестали вести себя в соответствии со статическим равновесием Нэша и перешли к стратегиям, обеспечивающим повышенную маржинальность. Теория динамического сговора как раз и призвана объяснить, при каких условиях фирмы отказываются от статического соперничества в пользу более прибыльных долгосрочных стратегий.

🎲 Простейшая модель Бертрана и загадка идеального сговора 1:37

Для демонстрации базовых принципов динамического взаимодействия лектор предлагает рассмотреть простейшую модель с $N$ идентичными фирмами, имеющими постоянные предельные издержки $c$ и одинаковый коэффициент дисконтирования $\delta$. В этой модели компании играют в ценовую игру Бертрана с функцией рыночного спроса $Q(p)$, где весь объем рынка достается тому участнику, который установит наименьшую цену, тогда как остальные фирмы получают нулевые продажи. Если цены оказываются равными, спрос делится между фирмами поровну. В конце каждого периода все участники рынка полностью видят цены друг друга, формируя историю наблюдений. Стратегия каждой фирмы в этой повторяющейся игре представляет собой функцию, определяющую текущую цену на основе всех предыдущих действий конкурентов.

Как отмечает Эллисон, данная модель имеет совершенное в подиграх равновесие, эквивалентное совершенной конкуренции (статическое равновесие Нэша), при котором все участники устанавливают цену на уровне издержек ($p=c$) в каждом периоде. Однако если коэффициент дисконтирования $\delta$ достаточно велик и удовлетворяет условию $\delta \ge 1 - 1/N$, в модели также возникает равновесие совершенного сговора. В этом случае фирмы поддерживают монопольную цену $P_m$ до тех пор, пока никто не нарушает соглашение. Если же кто-то отклоняется от договоренности, запускается так называемая «карающая стратегия» (grim trigger), и в будущем все навсегда переходят к ценообразованию на уровне предельных издержек. Угроза вечной ценовой войны эффективно удерживает фирмы от демпинга.

Теоретический анализ позволяет выявить ряд естественных сравнительных статических закономерностей:

Терпение игроков: поддерживать сговор гораздо проще, когда коэффициент дисконтирования $\delta$ велик.
Скорость обнаружения: сговор усложняется, если на рынке присутствуют задержки в обнаружении демпинга конкурентов.
Регулярность спроса: непрерывный приток заказов облегчает координацию, в то время как крупные и редкие контракты (lumpy demand) делают сговор нестабильным. В качестве примера лектор приводит гипотетическое соперничество оборонных гигантов Raytheon и Lockheed при создании истребителей нового поколения для правительства США: если заказы поступают раз в 15 лет, ценность будущего стремится к нулю, и стимул предать партнера ради мгновенного куша становится непреодолимым.
Динамика рынка: на растущих рынках сговор поддерживать легче, поскольку будущие прибыли перевешивают сиюминутную выгоду от предательства. Напротив, на стагнирующих рынках или в преддверии технологических сдвигов ценность будущего падает, и соглашения разрушаются.
Число участников: чем меньше число фирм $N$, тем легче удержать сговор, так как пороговое значение $\delta$ становится ниже.

Тем не менее, Гленн Эллисон указывает на парадоксальный недостаток этой базовой модели: численно она дает совершенно неверные предсказания. Если цены публикуются в интернете, конкуренты (например, T-Mobile и Verizon) узнают об изменении тарифов в течение дня или недели. При ежедневном пересчете коэффициент дисконтирования $\delta$ должен составлять порядка 0,99999, что теоретически позволяет успешно сговариваться тысячам фирм одновременно. По расчетам лектора, даже при наличии 100 фирм и задержке обнаружения в целый месяц рабочий коэффициент $\delta$ составил бы около 0,99, что все равно гарантировало бы идеальный сговор. В реальном мире сговор среди 100 компаний при месячных задержках практически невозможен, а значит, удержать монопольные цены гораздо сложнее, чем предполагает простейшая математика.

👁️ Несовершенный мониторинг: модель Грина — Портера 8:28

Главная причина, почему сговор в реальности оказывается затрудненным, заключается в несовершенном мониторинге: фирмам зачастую крайне тяжело узнать, действительно ли их конкуренты нарушили соглашение. Если в потребительском секторе цены открыты, то в сегменте B2B, где контракты заключаются индивидуально в ходе переговоров, факт предоставления тайной скидки скрыт от посторонних глаз. Данную проблему описывает классическая модель Эдварда Грина и Роберта Портера (1984), модифицированную версию которой Жан Тироль позже включил в свой фундаментальный учебник по теории организации рынков.

В этой концепции два участника ведут ценовую конкуренцию Бертрана при наличии случайного рыночного спроса. Спрос может быть высоким ($Q(p)$ с вероятностью $1-\alpha$) или полностью отсутствовать (нулевой спрос с вероятностью $\alpha$). Профессор иллюстрирует это примером компаний, поставляющих компьютерное оборудование или офисную мебель для крупного корпоративного заказчика: в одни месяцы фирма размещает крупные заказы, в другие — не заказывает ничего. На рынке действует несовершенная наблюдаемость: компании видят только собственные объемы поставок, но не знают цен и продаж своего конкурента.

Возникает фундаментальная неопределенность: если в каком-то месяце фирма получает нулевой спрос, перед ней открываются две равновероятные трактовки произошедшего. Первое объяснение — на рынке наступил период низкого спроса, и клиент вообще не делал заказов. Второе объяснение — конкурент тайно снизил цену (например, предложив клиенту 10-процентную скидку), переманив весь спрос на себя. Простой телефонный звонок конкуренту не решает проблему, поскольку тот всегда может солгать о том, что у него тоже не было продаж.

Из-за этого скрытого характера информации, как утверждает лектор, на равновесной траектории невозможен сговор, при котором обе фирмы всегда поддерживали бы монопольную цену. Если бы такое равновесие существовало, то даже после затяжной череды периодов с нулевым спросом фирмы обязаны были бы продолжать держать монопольную цену, что создавало бы непреодолимый стимул для тайного демпинга.

🧮 Математика наказания: динамическое программирование сговора 14:30

Ключевой вывод Грина и Портера состоит в том, что хотя идеальный сговор недостижим, фирмы могут прийти к частичному сговору. Если вероятность случайного падения спроса невелика ($\alpha < 1/2$), а коэффициент дисконтирования $\delta$ близок к единице, в модели формируется устойчивое частично сбалансированное равновесие. Согласно правилам этого равновесия, фирмы изначально устанавливают монопольную цену $P_m$. Однако как только одна из них фиксирует у себя нулевой спрос, обе компании автоматически переходят к карательному режиму и снижают цену до уровня издержек $c$ на фиксированный срок в $T$ периодов, после чего синхронно возвращаются к монопольной цене. На графике цен это создает волнообразную структуру: периоды высоких монопольных цен сменяются временными ценовыми войнами, переходящими обратно в фазу сотрудничества.

Для доказательства устойчивости такого равновесия лектор применяется аппарат динамического программирования. Вводятся два ключевых значения: $V_m$ — приведенная стоимость ожидаемых выигрышей в начале кооперативной фазы, и $V_p$ — приведенная стоимость выигрышей в начале фазы наказания. Доказать отсутствие стимулов к отклонению во время ценовой войны достаточно просто: если фирма попытается установить цену ниже издержек $c$, она понесет прямые убытки, а если поднимет цену выше $c$, то просто останется с нулевыми продажами, никак не повлияв на будущую траекторию игры.

Основная математическая задача сводится к проверке того, что фирмам невыгодно предавать друг друга в кооперативной фазе. Если фирма следует равновесию, она получает ценность $V_m$. Если же она решает сдемпинговать, снизив цену на незначительную величину $\epsilon$, она забирает себе весь текущий монопольный спрос (если он существует), получая ожидаемую прибыль $(1-\alpha)\pi_m$ вместо половины $\pi_m / 2$, но гарантированно запускает фазу наказания со следующего периода, ценность которой равна $\delta V_p$. Условие устойчивости сговора выглядит как $V_m \ge (1-\alpha)\pi_m + \delta V_p$.

Система рекурсивных уравнений для поиска неизвестных ценностей имеет следующий вид:

$$V_m = (1-\alpha)\left(\frac{\pi_m}{2} + \delta V_m\right) + \alpha \delta V_p$$

$$V_p = \delta^T V_m$$

Подставляя второе уравнение в первое, экономисты получают линейное выражение с одним неизвестным, которое легко решается относительно $V_m$. После проведения алгебраических преобразований и сокращения общих членов условие отсутствия стимулов к демпингу сводится к неравенству:

$$2(1-\alpha)\delta + (2\alpha - 1)\delta^{T+1} > 1$$

Если выполняются базовые предпосылки лекции ($\alpha < 1/2$), то первый множитель $2(1-\alpha)$ строго больше единицы. При $\delta$, стремящемся к 1, и достаточно большой длительности наказания $T$ (чтобы обнулить второй член), неравенство гарантированно выполняется. На практике, как подчеркивает профессор, для предотвращения измены вовсе не обязательно делать наказание бесконечным — часто вполне достаточно установить $T = 2$ или $T = 3$.

Модель Грина — Портера позволяет сделать несколько фундаментальных и порой контринтуитивных выводов о природе картелей:

Неизбежность ценовых войн: ценовые войны в этой модели являются обязательным элементом стабильного равновесия. В старой литературе 1970-х годов (например, в книге Тома Юлена о железнодорожных картелях) ценовые войны рассматривались как признак окончательного краха картеля. Модель Грина — Портера доказывает обратное: в эффективно функционирующем картеле ценовые войны должны периодически вспыхивать.
Оптимальная конечность наказания: картелю невыгодно делать карательный период $T$ бесконечным. Слишком долгое наказание сжигает колоссальный объем совокупной выручки участников. Оптимальный картель выбирает минимально возможный срок $T$, который все еще способен удержать фирмы от демпинга.
Ложные триггеры: в условиях равновесия никто из участников на самом деле не жульничает. Ценовые войны запускаются исключительно под воздействием внешних негативных шоков спроса, которые выглядят подозрительно и напоминают измену. При этом фирмы не могут сесть за стол переговоров и отменить текущую ценоую войну, договорившись, что «в этот раз это была просто случайность», поскольку сама готовность жестко следовать правилу наказания является единственным фактором, удерживающим их от реального предательства.

Эллисон добавляет живой исторический контекст: до принятия Акта Interstate Commerce в 1887 году сговор в США не был уголовно наказуем. В 1880-е годы существовали специализированные консалтинговые агентства — аналоги современной McKinsey, — которые помогали промышленным магнатам вроде Вандербильтов грамотно выстраивать картельные соглашения, рассчитывая параметры цен и квот для удержания высокой маржинальности.

В более реалистичной версии модели, где фирмы конкурируют по Курно, а шоки спроса носят непрерывный характер (цена описывается как $P(Q_{1t} + Q_{2t}) + \epsilon_{it}$), участники устанавливают определенный критический порог цены $\hat{p}$. Если рыночная цена падает ниже $\hat{p}$, объявляется ценовая война. В такой конфигурации фирмы могут осуществлять микро-демпинг на величину $\epsilon$, сдвигая распределение вероятностей, но не гарантируя моментального наказания, что существенно усложняет поддержание стабильного сговора на практике.

⛓️ Развитие теории: от симметричных цен к перераспределению долей 30:40

Последующая теоретическая мысль значительно развила идеи Грина и Портера. Профессор выделяет фундаментальную работу Дилана Абреу, Дэвида Пирса и Эннио Стакетти (1990), опубликованную в журнале Econometrica. Авторы разработали строгий метод динамического программирования для анализа сильно симметричных моделей сговора. Они доказали, что в оптимальном соглашении карательная фаза должна задействовать двусторонние стимулы. Фирмы принуждаются к установлению цен даже ниже уровня издержек, поскольку чем агрессивнее и ниже будет цена в период войны, тем быстрее система вернется к прибыльной фазе сговора.

Главный методологический вклад Абреу, Пирса и Стакетти, по мнению Эллисон, заключается в предложении перенести фокус исследователей со сложного бесконечномерного «пространства стратегий» на компактное двумерное «пространство выигрышей». Это позволяет эффективно вычислять границы максимальных значений сотрудничества $V_m$ и минимальных значений наказания $V_p$.

Альтернативный подход предложили Дрю Фуденберг, Дэвид Левайн и Эрик Маскин. Они продемонстрировали, что неэффективности в виде разрушительных ценовых войн можно полностью избежать, если использовать асимметричные стратегии. Это становится возможным, если фирмы получают хотя бы косвенный сигнал не просто о факте сговора, а о том, кто именно из участников нарушил правила.

Если спрос имеет пространственную или региональную асимметрию (например, один участник сильнее на Восточном побережье США, а другой — на Западном), то локальное падение цен в конкретном регионе указывает на вероятного виновника. Вместо объявления всеобщей ценовой войны фирмы могут прибегнуть к динамическому перераспределению рыночных долей: в следующем периоде заподозренная фирма обязана искусственно завысить свои цены, добровольно уступая часть клиентов пострадавшему партнеру, что позволяет наказать нарушителя без потери совокупной прибыли картеля.

📈 Внешние факторы: бизнес-циклы, шоки издержек и регуляторы 38:43

Влияние макроэкономических колебаний на стабильность сговора подробно исследовали Хулио Ротенберг и Гарт Салонер (1986). Их базовая идея строится на том, что стимулы к нарушению картельного соглашения напрямую зависят от фазы делового цикла. В периоды экономического бума текущий спрос аномально высок по сравнению с ожидаемыми будущими доходами. Из-за этого соблазн предать партнеров ради колоссальной сиюминутной прибыли резко возрастает. Чтобы предотвратить неминуемый распад картеля во время пика деловой активности, фирмы вынуждены превентивно снижать цены и наценки. Таким образом, авторы обосновывают феномен контрциклического ценообразования, когда на пике спроса цены внутри картеля могут оказываться ниже, чем в периоды затишья.

Другой пласт проблем связан с приватными шоками издержек, которые изучили Сьюзан Эйти и Кайл Багвелл. Эффективный сговор должен решать две задачи одновременно: поддерживать высокие монопольные цены и обеспечивать эффективное производство (заказ должен выполнять тот, у кого в данный момент ниже издержки). Лектор иллюстрирует это примером дорожно-строительных компаний в Кембридже, претендующих на муниципальный подряд по укладке асфальта на Мемориал-Драйв. Издержки компаний постоянно скачут в зависимости от того, простаивает ли их техника или занята на других объектах. Фирмы хотели бы, чтобы тендер всегда выигрывал участник с низкими текущими издержками, но сталкиваются с проблемой стратегического вранья: на закрытых переговорах каждая компания будет утверждать, что именно ее издержки минимальны, требуя контракт себе. Эйти и Багвелл показали, что при высоком терпении ($\delta \to 1$) фирмы могут выстроить систему динамического учета «долгов» по рыночным долям, сдерживая эгоистичные мотивы партнеров.

Наконец, важнейшим внешним ограничителем выступает государство в лице антимонопольных органов. Как резонно подчеркивает Эллисон, топ-менеджеры с миллионными окладами крайне не любят проводить время в федеральных тюрьмах, поэтому уголовное преследование служит мощным сдерживающим фактором. С другой стороны, экономист Джозеф Харрингтон обратил внимание на парадоксальный побочный эффект: жесткое антимонопольное законодательство может цементировать существующие картели. Если запуск ценовой войны (резкое падение цен со 100 до 60 с последующим возвратом) гарантированно привлечет внимание регуляторов, фирмы будут до последнего избегать демпинга, фактически оказываясь «запертыми» в состоянии негласного сговора. Для разрушения этой ловушки правительства внедряют программы защиты информаторов (whistleblower protections), дарующие первому признавшемуся участнику иммунитет от преследования.

🔄 Равновесие Маркова и ценовые циклы Эджворта 52:03

Чтобы преодолеть проблему бесконечного множества равновесий и сделать экономические модели пригодными для эмпирических исследований, ученые часто используют концепцию совершенного в подиграх марковского равновесия (Markov Perfect Equilibrium — MPE). В рамках этого подхода предполагается, что стратегии игроков могут зависеть исключительно от перечня переменных, напрямую влияющих на текущие выигрыши (payoff-relevant variables) — таких как текущие уровни издержек или физические мощности. История прошлых цен, которая в базовых моделях использовалась для запуска карательных стратегий типа grim trigger, объявляется не влияющей на текущие платежи, что автоматически отсекает пласт классических долгосрочных наказаний.

Эрик Маскин и Жан Тироль проанализировали, как марковское равновесие работает в динамической игре с чередующимися ходами, моделирующей асинхронное изменение цен в реальной жизни (например, на двух автозаправках, расположенных друг напротив друга). В их модели Фирма 1 фиксирует цену в нечетные периоды на два срока вперед, а Фирма 2 делает свой ход в четные периоды.

Математический анализ этой игры приводит к неожиданным результатам:

Исчезновение конкурентного равновесия: в марковском формате полностью исчезает бертрановское равновесие с нулевой прибылью ($p=c$). Если бы фирмы торговали по себестоимости, Фирма 1 могла бы демонстративно поднять цену до высокого уровня. Фирма 2, понимая, что конкурент «заперт» в этой цене на два периода, из чистой марковской рациональности поднимет свою цену чуть ниже уровня первой, чтобы разделить монопольную прибыль, вместо того чтобы сидеть на нулевом выигрыше.
Циклы Эджворта: помимо стандартных квази-кооперативных состояний, в модели возникают устойчивые циклы Эджворта. В рамках этого равновесия фирмы запускают бесконечный процесс последовательного сбивания цен на мелкие шаги, пытаясь переманить клиентов. Когда демпинг доводит цену до нулевого уровня издержек, один из участников решает прекратить бессмысленную войну и резко запрыгивает обратно на максимальный уровень цен, позволяя конкуренту снова начать цикл постепенного снижения. По мнению лектора, во многих практических ситуациях такое постоянное колебание цен выглядит гораздо более экономически осмысленным, чем жесткое статическое ценообразование.

🤖 Алгоритмический сговор: когда цены устанавливают роботы 1:02:26

В финальной части лекции Гленн Эллисон переходит к переднему краю современной экономической науки — исследованию алгоритмического ценообразования на базе статьи Эмилио Кальвано, Джакомо Кальцолари, Винченцо Дениколо и Серджио Пасторелло (2020), опубликованной в American Economic Review. В цифровой экономике (сервисы аренды автомобилей вроде Hertz или Avis на агрегаторе Orbitz, продавцы зонтов или кроссовок Nike на Amazon) цены пересчитываются компьютерами ежесекундно. В таких условиях технический коэффициент дисконтирования $\delta$ вплотную приближается к единице, открывая шлюзы для бесчисленного множества теоретических равновесий. Ключевой вопрос исследования звучит так: какое именно равновесие выберут автономные компьютеры, если запустить их конкурировать друг против друга?

В отличие от классических агентов теории игр, роботы не рождаются со знанием точной структуры рынка или чужих стратегий — они вынуждены познавать мир через призму машинного обучения. Авторы статьи запрограммировали ценовых роботов с использованием алгоритма Q-learning (Q-обучение). Компьютер оперирует матрицей Q, где строки соответствуют наблюдаемым состояниям рынка (ценам конкурентов), а столбцы — собственным возможным действиям. Значения в ячейках отражают ожидаемую дисконтированную стоимость будущих прибылей.

Процесс функционирования алгоритма подчинен жесткой логике:

Инициализация: в самом начале матрица заполняется случайными или плоскими стартовыми догадками о кривой спроса.
Выбор действия: в каждом периоде робот с высокой долей вероятности выбирает действие, максимизирующее его ожидаемую прибыль на основе текущей матрицы Q.
Экспериментирование: с небольшой вероятностью $\epsilon$ робот совершает случайное пробное действие для разведки среды. С течением времени (через миллионы периодов) темп разведки снижается.
Обновление данных: после совершения хода робот фиксирует фактическую прибыль $\pi_t$, оценивает новое состояние рынка и перезаписывает значение ячейки матрицы, используя взвешенное среднее между старым убеждением и свежим опытом.

В стационарной среде Q-алгоритм гарантированно сходится к оптимальной долгосрочной стратегии. В симуляции Кальвано и соавторов роботы соревновались на базе ложит-модели ценовой конкуренции с сеткой из 15 доступных цен и базовым $\delta = 0,95$. Исследователи прогнали 10 000 различных комбинаций параметров скорости обучения ($\alpha$) и угасания экспериментов ($\beta$), зафиксировав конвергенцию после того, как оптимальные действия алгоритмов оставались неизменными на протяжении 100 000 периодов подряд.

Результаты симуляции показали, что практически при любых параметрах ценовые роботы самостоятельно учились жесткому сговору. Сформированные ими уровни прибыли достигали 70–90% от чистой монопольной прибыли, радикально превышая показатели статического равновесия Нэша.

Более того, по словам Эллисона, компьютеры без всякой подсказки человека самостоятельно изобрели карательные стратегии с конечными ценовыми войнами. Матричные убеждения роботов сформировались таким образом, что если один алгоритм снижал цену, второй мгновенно включал режим жесткого демпинга, увлекая систему вниз по цепочке ячеек, наказывая нарушителя падением доходов и возвращаясь обратно к монопольному уровню через 6–8 периодов. Рост числа конкурирующих роботов до четырех несколько снижал итоговую маржинальность, но уровень сговора все равно оставался аномально высоким.

В качестве подтверждения этого феномена в реальной жизни профессор демонстрирует скриншот с Amazon, где обычная шелковая подушка (Downright Eiderdown Silk Pillow) продавалась по безумной цене $10 235. Это произошло из-за того, что два независимых автоматических алгоритма ценообразования попали в бесконечную замкнутую петлю обучения: каждый робот считал, что для максимизации долгосрочной выгоды он должен выставлять цену на определенный процент выше, чем у конкурента, что в итоге взвинтило стоимость копеечного товара до астрономических высот. Данный пример наглядно доказывает, по мнению лектора, что алгоритмический сговор — это не абстрактная математическая модель, а повседневная реальность современных цифровых платформ.