Янник Килчер разобрал симуляцию AI Economist: как ИИ предлагает оптимизировать налоги

Yannic Kilcher 22,6 тыс. 35 мин 7 мин 30.04.2020
Главное

Исследователи из Salesforce Research совместно с Гарвардским университетом разработали симуляцию под названием «AI Economist», которая ищет оптимальные налоговые ставки для общества с помощью машинного обучения. Популярный ИИ-блогер Янник Килчер подробно разобрал эту научную работу, оценив экономические и технические механизмы предложенного цифрового мира. Автор анализирует, почему слепая оптимизация математических функций приводит к жесткому налоговому давлению на бедных, и указывает на серьезные изъяны в архитектуре проекта.

🎮 Устройство симуляции: ресурсы, торговля и врожденное неравенство 0:15

В основе исследования лежит закрытая двумерная игровая среда, напоминающая поле классической пиксельной стратегии. В этой цифровой песочнице одновременно участвуют четыре агента, управляемые независимыми алгоритмами обучения с подкреплением. Их жизнедеятельность подчинена простому набору правил:

Каждое возведенное здание мгновенно приносит агенту внутриигровую валюту (монеты). Как объясняет Килчер, авторы намеренно заложили в симуляцию ключевой элемент реального мира — разницу в базовых навыках персонажей. Высококвалифицированный агент за постройку дома получает 50 монет, в то время как низкоквалифицированный за точно такую же работу зарабатывает всего 10. По мнению блогера, такое абстрактное допущение удачно отражает реальную экономическую теорию, согласно которой неравенство доходов во многом проистекает из разной способности людей конвертировать единицу своего труда в деньги.

Для компенсации этого неравенства агентам предоставлена возможность торговать. Те игроки, которые обделены строительными навыками, могут собирать ресурсы на карте и продавать их более умелым персонажам в обмен на монеты. Килчер восхищается тем, что из столь лаконичных правил в симуляции спонтанно возникает глубокое разделение труда. Низкоквалифицированные агенты со временем полностью отказываются от самостоятельного строительства и превращаются в профессиональных собирателей, обеспечивая сырьем самого эффективного игрока. Весь цикл симуляции жестко ограничен 1000 шагами, после чего игровой эпизод перезапускается.

📈 Социальное благосостояние и дилемма свободного рынка 4:52

Над игровым полем надстроена фигура виртуального государства, которая непрерывно отслеживает доходы агентов и устанавливает налоговую шкалу. Все собранные налоги правительство аккумулирует и распределяет строго поровну между всеми четырьмя участниками, сглаживая финансовые разрывы. В данной работе искусственный интеллект управляет не только действиями агентов, но и поведением самого регулятора, пытаясь максимизировать так называемую функцию социального благосостояния.

По словам Килчера, эта целевая функция рассчитывается как произведение двух ключевых макроэкономических показателей:

Государство в симуляции неизбежно сталкивается с классическим экономическим компромиссом. В условиях абсолютно свободного рынка (когда налоги равны нулю) достигается максимальная продуктивность, поскольку у агентов есть колоссальный стимул зарабатывать больше. Однако равенство при этом падает до минимума, а самый талантливый агент забирает себе до двух третей всего богатства симуляции.

Разработчики сравнили своего ИИ-регулятора со следующими экономическими моделями:

  1. Свободный рынок (Free Market) — полное отсутствие налогообложения.
  2. Федеральная налоговая система США (US Federal) — прогрессивная шкала, где процентная ставка растет по мере увеличения дохода.
  3. Формула Саиза (Saez formula) — регрессивный график на основе теоретической экономики, предполагающий снижение налогов для сверхбогатых ради стимулирования их деловой активности.

Согласно графикам обучения, система AI Economist со временем значительно превосходит все традиционные подходы, обеспечивая наивысший уровень социального блага за счет ювелирного баланса равенства и умеренной потери продуктивности.

📉 Парадоксы налоговой политики ИИ: «Бей бедных!» 15:54

Когда Килчер переходит к детальному анализу налоговой сетки, выработанной нейросетью, обнаруживаются крайне циничные аномалии. График налогов имеет странную зигзагообразную форму, но самый сильный шок у блогера вызывает поведение ИИ на начальном отрезке доходов.

Для беднейших слоев населения, которые едва начинают зарабатывать свои первые монеты, ИИ устанавливает самую высокую налоговую ставку — около 60%. Как иронизирует Янник, если вы брошены обществом, у вас нет ни дома, ни денег, и вы наконец находите копеечную работу, чтобы купить чизбургер, виртуальное правительство мгновенно забирает у вас большую часть дохода.

Блогер объясняет логику алгоритма следующими факторами:

Тем не менее, по мнению Килчера, этот пример наглядно иллюстрирует колоссальную сложность перевода человеческих ценностей и понятий о справедливости в сухую математическую целевую функцию. Оптимизация приводит к созданию стабильного двухклассового общества, разделенного на «добытчиков» и «коллекционеров». Алгоритм душит налогами любую попытку коллекционеров немного увеличить свой доход, фактически лишая их экономической мобильности. В функции благосостояния просто не был прописан параметр социальной мобильности, поэтому ИИ абсолютно безразлично, что бедные остаются запертыми на своем уровне, пока общие цифры системы растут.

При этом для среднего класса ИИ создает глубокую «налоговую гавань», снижая ставки почти до минимума, чтобы они производили как можно больше монет. На самом высоком уровне доходов — условных «Скруджей Макдаков» с моноклями — ставка снова резко взлетает вверх, превращая их в главный источник бюджетных поступлений.

🧠 Критика архитектуры: оверэнжиниринг и потенциальные лазейки 23:11

Янник Килчер выражает глубокое скептическое отношение к технической реализации внешнего цикла (outer-loop) симуляции. Авторы разбили стандартный игровой эпизод в 1000 шагов на 10 отдельных «периодов». В начале каждого периода правительство имеет право полностью переписать налоговые правила.

Блогер считает такое решение абсурдным с точки зрения реального госуправления: ни одно нормальное правительство не станет хаотично менять налоги каждые несколько дней. Килчер предполагает, что авторы искусственно усложнили задачу ради банального оверэнжиниринга. Если бы налоги задавались один раз на всю игру, задача свелась бы к простому одношаговому «многорукому бандиту» (bandit problem), а бандиты — это слишком скучно для крупной научной публикации. Исследователи же просто хотели получить повод внедрить в модель рекуррентную сеть LSTM и представить процесс как последовательное принятие решений.

Блогер указывает на жесткие технические ограничения используемых моделей:

По мнению Килчера, такие скромные агенты физически не способны мгновенно адаптироваться к сложным изменениям налоговых ступеней. Они лишь фиксируют общее изменение вознаграждений с задержкой. Из-за этого ИИ-регулятор может использовать банальную лазейку: в периодах с 1 по 9 он держит налоги для богатых на нуле, заставляя их генерировать горы золота, а в финальном 10-м периоде взвинчивает ставки до максимума, экспроприирует богатство и распределяет его ради красивой финальной статистики. Поскольку после этого эпизод мгновенно заканчивается, долгосрочные разрушительные последствия для мотивации агентов просто не успевают проявиться.

🧱 Дональд Трамп в мире людей: провал контролируемого эксперимента 29:33

В финальной части работы авторы решили проверить свои налоговые стратегии на реальных людях, поместив их внутрь интерфейса симуляции вместо RL-агентов. Результаты этого эксперимента Килчер называет практически бесполезными из-за критических методологических допущений.

Во-первых, разработчики полностью отключили для людей возможность торговли ресурсами. Это решение, по мнению блогера, полностью уничтожает экономический смысл эксперимента, превращая итоговое богатство в банальное отражение стартового навыка игрока. Во-вторых, для человеческих тестов авторы выбрали совершенно иную налоговую шкалу, в которой почему-то отсутствовали те самые яркие особенности — ни сверхналога на бедных, ни резкого пика для сверхбогатых.

Сам характер поведения людей разительно отличался от ИИ. В то время как нейросети действовали чисто прагматично, люди проявили выраженную территориальность. Они начали строить свои дома ровными аккуратными линиями и пакетами, пытась огородить личные углы.

Один из игроков наглядно продемонстрировал забавную стратегию в правом нижнем углу карты. Вместо максимизации прибыли от постройки зданий, он начал возводить стены из домов, чтобы намертво заблокировать передвижение остальных участников. Килчер со смехом комментирует этот эпизод: «Я построю большую прекрасную стену, и заставлю оранжевого парня заплатить за нее! Это же Дональд Трамп внутри игры!». В итоге замурованные игроки вообще потеряли возможность двигаться. И хотя по очкам этот «Трамп» не победил, блогер резонно отмечает: какая разница, сколько у вас денег, если вы заперты в клетке и не можете сделать ни шагу?.

Несмотря на обилие спорных моментов, Килчер признает проект Salesforce крайне увлекательным и многообещающим, напоминая, что авторы пообещали выложить исходный код в открытый доступ.

💬 Цитаты

«Для беднейших слоев населения, которые едва начинают зарабатывать свои первые монеты, ИИ устанавливает самую высокую налоговую ставку — около 60%.»

Янник Килчер 17:05

«Я построю большую прекрасную стену, и заставлю оранжевого парня заплатить за нее! Это же Дональд Трамп внутри игры!»

Янник Килчер 33:55
👥 Спикер
📖 Термины
Индекс Джини
Статистический показатель, оценивающий степень неравенства доходов в обществе.
PPO (Proximal Policy Optimization)
Популярный алгоритм обучения с подкреплением, используемый для стабилизации обучения нейросетей.
LSTM (Long Short-Term Memory)
Архитектура рекуррентных нейронных сетей, способная запоминать долгосрочные зависимости в данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Salesforce Research AI Economist Янник Кильхер обучение с подкреплением