Янник Килчер разобрал симуляцию AI Economist: как ИИ предлагает оптимизировать налоги

Исследователи из Salesforce Research совместно с Гарвардским университетом разработали симуляцию под названием «AI Economist», которая ищет оптимальные налоговые ставки для общества с помощью машинного обучения. Популярный ИИ-блогер Янник Килчер подробно разобрал эту научную работу, оценив экономические и технические механизмы предложенного цифрового мира. Автор анализирует, почему слепая оптимизация математических функций приводит к жесткому налоговому давлению на бедных, и указывает на серьезные изъяны в архитектуре проекта.

🎮 Устройство симуляции: ресурсы, торговля и врожденное неравенство 0:15

В основе исследования лежит закрытая двумерная игровая среда, напоминающая поле классической пиксельной стратегии. В этой цифровой песочнице одновременно участвуют четыре агента, управляемые независимыми алгоритмами обучения с подкреплением. Их жизнедеятельность подчинена простому набору правил:

Перемещаться по свободным клеткам игрового поля, за исключением зон с водой и чужих построек.
Собирать базовые ресурсы — дерево и камень, просто проходя по соответствующим тайлам карты.
Строить дома, затрачивая на каждую постройку фиксированную комбинацию из одной единицы дерева и одной единицы камня.

Каждое возведенное здание мгновенно приносит агенту внутриигровую валюту (монеты). Как объясняет Килчер, авторы намеренно заложили в симуляцию ключевой элемент реального мира — разницу в базовых навыках персонажей. Высококвалифицированный агент за постройку дома получает 50 монет, в то время как низкоквалифицированный за точно такую же работу зарабатывает всего 10. По мнению блогера, такое абстрактное допущение удачно отражает реальную экономическую теорию, согласно которой неравенство доходов во многом проистекает из разной способности людей конвертировать единицу своего труда в деньги.

Для компенсации этого неравенства агентам предоставлена возможность торговать. Те игроки, которые обделены строительными навыками, могут собирать ресурсы на карте и продавать их более умелым персонажам в обмен на монеты. Килчер восхищается тем, что из столь лаконичных правил в симуляции спонтанно возникает глубокое разделение труда. Низкоквалифицированные агенты со временем полностью отказываются от самостоятельного строительства и превращаются в профессиональных собирателей, обеспечивая сырьем самого эффективного игрока. Весь цикл симуляции жестко ограничен 1000 шагами, после чего игровой эпизод перезапускается.

📈 Социальное благосостояние и дилемма свободного рынка 4:52

Над игровым полем надстроена фигура виртуального государства, которая непрерывно отслеживает доходы агентов и устанавливает налоговую шкалу. Все собранные налоги правительство аккумулирует и распределяет строго поровну между всеми четырьмя участниками, сглаживая финансовые разрывы. В данной работе искусственный интеллект управляет не только действиями агентов, но и поведением самого регулятора, пытаясь максимизировать так называемую функцию социального благосостояния.

По словам Килчера, эта целевая функция рассчитывается как произведение двух ключевых макроэкономических показателей:

Экономическая продуктивность — суммарное количество монет, произведенных всем населением симуляции за игровой цикл.
Равенство доходов — метрика, рассчитываемая на основе индекса Джини. Полное равенство представляет собой идеальную прямую линию на графике распределения богатства, а реальное состояние общества отражает кривую, площадь под которой вычитается из единицы для получения итогового коэффициента равенства.

Государство в симуляции неизбежно сталкивается с классическим экономическим компромиссом. В условиях абсолютно свободного рынка (когда налоги равны нулю) достигается максимальная продуктивность, поскольку у агентов есть колоссальный стимул зарабатывать больше. Однако равенство при этом падает до минимума, а самый талантливый агент забирает себе до двух третей всего богатства симуляции.

Разработчики сравнили своего ИИ-регулятора со следующими экономическими моделями:

Свободный рынок (Free Market) — полное отсутствие налогообложения.
Федеральная налоговая система США (US Federal) — прогрессивная шкала, где процентная ставка растет по мере увеличения дохода.
Формула Саиза (Saez formula) — регрессивный график на основе теоретической экономики, предполагающий снижение налогов для сверхбогатых ради стимулирования их деловой активности.

Согласно графикам обучения, система AI Economist со временем значительно превосходит все традиционные подходы, обеспечивая наивысший уровень социального блага за счет ювелирного баланса равенства и умеренной потери продуктивности.

📉 Парадоксы налоговой политики ИИ: «Бей бедных!» 15:54

Когда Килчер переходит к детальному анализу налоговой сетки, выработанной нейросетью, обнаруживаются крайне циничные аномалии. График налогов имеет странную зигзагообразную форму, но самый сильный шок у блогера вызывает поведение ИИ на начальном отрезке доходов.

Для беднейших слоев населения, которые едва начинают зарабатывать свои первые монеты, ИИ устанавливает самую высокую налоговую ставку — около 60%. Как иронизирует Янник, если вы брошены обществом, у вас нет ни дома, ни денег, и вы наконец находите копеечную работу, чтобы купить чизбургер, виртуальное правительство мгновенно забирает у вас большую часть дохода.

Блогер объясняет логику алгоритма следующими факторами:

Цель сверхвысокого налога на бедных — не сбор денег ради пополнения бюджета, а создание жесткого экономического стимула для перехода в более продуктивный класс.
Поскольку модель предполагает, что даже низкоквалифицированный рабочий способен немного поднять свою выработку под давлением, ИИ буквально «выталкивает» бедных из зоны пассивной нищеты.

Тем не менее, по мнению Килчера, этот пример наглядно иллюстрирует колоссальную сложность перевода человеческих ценностей и понятий о справедливости в сухую математическую целевую функцию. Оптимизация приводит к созданию стабильного двухклассового общества, разделенного на «добытчиков» и «коллекционеров». Алгоритм душит налогами любую попытку коллекционеров немного увеличить свой доход, фактически лишая их экономической мобильности. В функции благосостояния просто не был прописан параметр социальной мобильности, поэтому ИИ абсолютно безразлично, что бедные остаются запертыми на своем уровне, пока общие цифры системы растут.

При этом для среднего класса ИИ создает глубокую «налоговую гавань», снижая ставки почти до минимума, чтобы они производили как можно больше монет. На самом высоком уровне доходов — условных «Скруджей Макдаков» с моноклями — ставка снова резко взлетает вверх, превращая их в главный источник бюджетных поступлений.

🧠 Критика архитектуры: оверэнжиниринг и потенциальные лазейки 23:11

Янник Килчер выражает глубокое скептическое отношение к технической реализации внешнего цикла (outer-loop) симуляции. Авторы разбили стандартный игровой эпизод в 1000 шагов на 10 отдельных «периодов». В начале каждого периода правительство имеет право полностью переписать налоговые правила.

Блогер считает такое решение абсурдным с точки зрения реального госуправления: ни одно нормальное правительство не станет хаотично менять налоги каждые несколько дней. Килчер предполагает, что авторы искусственно усложнили задачу ради банального оверэнжиниринга. Если бы налоги задавались один раз на всю игру, задача свелась бы к простому одношаговому «многорукому бандиту» (bandit problem), а бандиты — это слишком скучно для крупной научной публикации. Исследователи же просто хотели получить повод внедрить в модель рекуррентную сеть LSTM и представить процесс как последовательное принятие решений.

Блогер указывает на жесткие технические ограничения используемых моделей:

Агенты и планировщик используют крайне малые нейросети: сверточная сеть (CNN) состоит всего из двух слоев, а скрытое состояние LSTM включает лишь 128 элементов.
Обучение происходит по алгоритму PPO (Proximal Policy Optimization) без построения модели среды (model-free).

По мнению Килчера, такие скромные агенты физически не способны мгновенно адаптироваться к сложным изменениям налоговых ступеней. Они лишь фиксируют общее изменение вознаграждений с задержкой. Из-за этого ИИ-регулятор может использовать банальную лазейку: в периодах с 1 по 9 он держит налоги для богатых на нуле, заставляя их генерировать горы золота, а в финальном 10-м периоде взвинчивает ставки до максимума, экспроприирует богатство и распределяет его ради красивой финальной статистики. Поскольку после этого эпизод мгновенно заканчивается, долгосрочные разрушительные последствия для мотивации агентов просто не успевают проявиться.

🧱 Дональд Трамп в мире людей: провал контролируемого эксперимента 29:33

В финальной части работы авторы решили проверить свои налоговые стратегии на реальных людях, поместив их внутрь интерфейса симуляции вместо RL-агентов. Результаты этого эксперимента Килчер называет практически бесполезными из-за критических методологических допущений.

Во-первых, разработчики полностью отключили для людей возможность торговли ресурсами. Это решение, по мнению блогера, полностью уничтожает экономический смысл эксперимента, превращая итоговое богатство в банальное отражение стартового навыка игрока. Во-вторых, для человеческих тестов авторы выбрали совершенно иную налоговую шкалу, в которой почему-то отсутствовали те самые яркие особенности — ни сверхналога на бедных, ни резкого пика для сверхбогатых.

Сам характер поведения людей разительно отличался от ИИ. В то время как нейросети действовали чисто прагматично, люди проявили выраженную территориальность. Они начали строить свои дома ровными аккуратными линиями и пакетами, пытась огородить личные углы.

Один из игроков наглядно продемонстрировал забавную стратегию в правом нижнем углу карты. Вместо максимизации прибыли от постройки зданий, он начал возводить стены из домов, чтобы намертво заблокировать передвижение остальных участников. Килчер со смехом комментирует этот эпизод: «Я построю большую прекрасную стену, и заставлю оранжевого парня заплатить за нее! Это же Дональд Трамп внутри игры!». В итоге замурованные игроки вообще потеряли возможность двигаться. И хотя по очкам этот «Трамп» не победил, блогер резонно отмечает: какая разница, сколько у вас денег, если вы заперты в клетке и не можете сделать ни шагу?.

Несмотря на обилие спорных моментов, Килчер признает проект Salesforce крайне увлекательным и многообещающим, напоминая, что авторы пообещали выложить исходный код в открытый доступ.