От блефа к доверию: как ИИ учится договариваться с людьми

Lex Fridman 460 тыс. 2 ч 29 мин 21 мин 06.12.2022
Главное

В безлимитном покере количество точек принятия решений превосходит число атомов во Вселенной в квадрате, но искусственный интеллект всё равно научился обыгрывать лучших профессионалов планеты. Секрет этой непобедимости кроется не в слепом переборе вариантов, а в математически точном моделировании человеческих сожалений, блефа и скрытой информации. Пройдя путь от карточного стола до геополитической игры «Дипломатия», кремниевый разум выходит на новый уровень — теперь он учится не воевать, а договариваться и выстраивать доверие с людьми.

🃏 Теория игр, математическая строгость покера и психология ИИ 0:00

Математика непобедимости: Равновесие Нэша и теория игр 0:13

Многие люди традиционно считают теорию игр чем-то абстрактным и оторванным от реальности, полагая, что для заработка в покере необходимо смотреть человеку в душу и читать его эмоции. Однако, как отмечает исследователь Ноам Браун (Noam Brown) в беседе с Лексом Фридманом (Lex Fridman), разработанный им искусственный интеллект не пытался адаптироваться к стилю оппонентов или вести психологические войны — он просто аппроксимировал Равновесие Нэша и в итоге разгромил четырех топовых игроков мирового уровня. Вскользь упомянутые в начале разговора покерные проекты Libratus, шестипользовательский бот Pluribus, а также бот Cicero для игры «Дипломатия» доказали это на практике, но подробнее их архитектура будет рассмотрена в следующих главах.

Суть Равновесия Нэша заключается в том, что в любой конечной игре двух игроков с нулевой суммой существует определенная стратегия. Если игрок строго ей следует, он гарантированно не проиграет по математическому ожиданию в долгосрочной перспективе, независимо от того, насколько силен или непредсказуем его соперник. Лекс Фридман называет эту концепцию радикальной, и Ноам Браун соглашается, приводя для интуитивного понимания классический пример с «камень-ножницы-бумага». Если случайно выбирать каждый из трех знаков со строго равной вероятностью, то на длинной дистанции вы гарантированно не уйдете в минус. Тот же принцип применим и к покеру для двух игроков: существует монументальная математическая стратегия, обеспечивающая как минимум безубыточность.

Важно понимать, что фраза «не проиграть в долгосрочной перспективе» учитывает колоссальную дисперсию покера. Вы можете проигрывать отдельные раздачи из-за невезения, но на большой дистанции идеальная стратегия всегда выведет игрока в плюс или ноль. В играх же, где участвуют более двух человек (например, в шестипользовательском покере, природа которого детально анализируется далее в статье), Равновесие Нэша теряет свою былую силу. Если все участники за столом неосознанно или намеренно объединятся против одного, никакая безупречная стратегия не спасет от гарантированного поражения.

ИИ против человека: Между победой и развлечением 10:26

В индустрии создания искусственного интеллекта существует фундаментальное различие между разработкой агента, нацеленного исключительно на победу, и созданием систем, с которыми человеку будет интересно играть или за которыми увлекательно наблюдать со стороны. Ноам Браун подчеркивает, что геймдизайнеры коммерческих видеоигр, таких как Civilization, намеренно отказываются от поиска оптимальных алгоритмов победы. Боты в таких играх играют в совершенно другую игру: они наделены уникальными чертами характера и узнаваемым поведением, чтобы процесс приносил удовольствие, а не превращался в бездушное математическое доминирование компьютера.

Развитие технологий, особенно больших языковых моделей, обещает кардинально изменить мир неигровых персонажей (NPC) в открытых мирах масштабных RPG-проектов. Собеседники рассуждают о будущем игровой индустрии, предполагая, что новые части культовых франшиз начнут активно внедрять нейросети для генерации живых диалогов. В прошлом разработчики фокусировались на боевых механиках лишь потому, что научить ИИ сражаться и убивать гораздо проще, чем обучить его полноценно разговаривать, сопереживать и кооперироваться с человеком.

Уход от полностью заскриптованного диалогового окна открывает двери для совершенно новых игровых жанров, где вместо стрельбы игроку придется сталкиваться с социальным push-and-pull — драмой, пассивной агрессией и эмоциональными спорами с искусственным интеллектом. Хотя это звучит как психологически изматывающий опыт, виртуальный мир остается безопасной песочницей для моделирования хаоса человеческих взаимоотношений. Полноценный разбор игры «Дипломатия», где эти механики выходят на первый план, ждет читателя в четвертой и пятой главах статьи.

Метод контрфактической минимизации сожаления: Обучение на ошибках «что если» 14:07

Для поиска Равновесия Нэша в сложных стратегических пространствах Ноам Браун и его коллеги используют алгоритм самообучения (self-play), известный как метод контрфактической минимизации сожаления (Counterfactual Regret Minimization, или CFR). Процесс устроен следующим образом:

Поскольку система играет против точной копии самой себя, она способна с легкостью просчитать гипотетические ответы оппонента на каждый свой альтернативный шаг. Если симуляция показывает, что иное решение принесло бы больше выгоды, алгоритм высчитывает и обновляет так называемое «значение сожаления» (regret value). При следующей встрече с аналогичной ситуацией ИИ с более высокой вероятностью выберет то действие, о невыполнении которого он больше всего «сожалеет». Математически доказано, что при долгосрочном накоплении таких показателей система неизбежно сходится к оптимальной стратегии Равновесия Нэша.

Этот целенаправленный тип подкрепляющего обучения удивительно похож на то, как учатся играть люди, расспрашивая друзей после раздачи: «А ты бы пошел ва-банк, если бы я поднял ставку?». Однако масштаб вычислений у ИИ несопоставим с человеческим. В безлимитном Техасском Холдеме один на один существует $10^{161}$ различных точек принятия решений — это больше, чем количество атомов во Вселенной, возведенное в квадрат. Здесь на помощь приходят нейросети: они позволяют обобщать опыт и находить верные решения в схожих игровых ситуациях, поскольку точное повторение одной и той же раздачи на практике практически невозможно.

Покер против шахмат: Сложность игр с несовершенной информацией 18:18

Вопрос о том, какая игра сложнее — шахматы, го или покер, остается предметом бурных дискуссий в ИИ-сообществе. Ноам Браун твердо защищает позицию, согласно которой покер представляет собой гораздо более серьезный вызов для науки, и ключевая причина заключается в несовершенстве информации.

В шахматах или го оба соперника видят абсолютно все фигуры на доске. В покере же каждый участник получает по две карты «втемную», которые скрыты от глаз оппонентов. Это рождает глубокие иерархии стратегического мышления: игроку необходимо постоянно размышлять над тем, что думает соперник, что соперник думает о его собственных картах, и как они взаимно оценивают намерения друг друга. Именно эта неопределенность делает возможным блеф — ситуацию, когда можно поставить много chips с плохой рукой и все равно забрать банк.

Главная сложность игр с несовершенной информацией заключается в том, что ценность любого действия напрямую зависит от частоты (вероятности) его выбора. Если в игре «камень-ножницы-бумага» вы будете постоянно выбирать камень, ваша стратегия мгновенно станет проигрышной. Точно так же и в покере:

Поиск безупречного математического баланса между блефом и реальной силой руки — фундаментальная задача. В шахматах ценность дебюта, например, ферзевого гамбита, остается неизменной, независимо от того, играете вы его в 10% или в 100% случаев. В покере же приходится балансировать не просто действия, а целые диапазоны рук (ranges), оставаясь непредсказуемым для соперника. Сильнейшие боты стремятся действовать строго в рамках Равновесия Нэша, чтобы оставаться принципиально неуязвимыми на длинной дистанции. В завершение фрагмента Лекс Фридман упоминает легендарного Фила Хельмута, чей хаотичный и внешне суб-оптимальный стиль игры бросает вызов строгим математическим моделям, открывая еще одно измерение покерного гения.

🃏 Победа Libratus: смена парадигмы в покере 26:56

До 2017 года в экспертном сообществе доминировало убеждение, что в безлимитном техасском холдеме невозможно полагаться исключительно на теорию игр. Профессионалы утверждали, что для успеха необходимо «читать» оппонента, улавливать эмоциональные нюансы и адаптироваться к его стилю игры, отбрасывая строгие математические модели. Ранее в разговоре они затрагивали концепции равновесия Нэша и теорию игр как теоретическую основу стратегий.

Переломным моментом стало создание ИИ Libratus, разработанного Ноамом Брауном (Noam Brown) и его командой. В ходе 20-дневного испытания, в рамках которого состоялось 120 000 раздач против четырех элитных игроков, Libratus не пытался «разгадать» психологию соперников или использовать манипулятивные приёмы. Вместо этого он придерживался стратегии, максимально приближенной к равновесию Нэша. Результат оказался ошеломляющим: бот продемонстрировал подавляющее преимущество, выиграв около 2 миллионов «виртуальных» долларов (в пересчёте на фишки), что окончательно доказало превосходство GTO-подхода (Game Theory Optimal) над классическим эксплуататорским стилем игры в формате «один на один».

💡 Эволюция алгоритмов: переход к поиску в реальном времени 29:07

Успех Libratus в 2017 году по сравнению с неудачей в 2015-м был обусловлен фундаментальным изменением в архитектуре ИИ. Если ранние версии полагались на заранее вычисленные стратегии (статичные таблицы), превращая покер в игру по заранее подготовленному сценарию, то новая версия внедрила механизм поиска в реальном времени.

Ноам Браун (Noam Brown) объясняет, что этот процесс имитирует человеческое раздумье. В то время как обычная нейросеть выдаёт ответ мгновенно (за 100 миллисекунд), Libratus использовал дополнительные вычислительные ресурсы для «планирования» в процессе самой раздачи. Бот анализировал возможные действия для всех комбинаций карт, которые он мог держать, и сопоставлял их с вероятными действиями оппонента. Даже небольшое количество такой «глубинной» работы алгоритма приводило к качественному скачку: эффект от внедрения поиска оказался эквивалентен многократному увеличению размера нейросети. Этот метод позволил боту не просто исполнять заученную стратегию, а корректировать её в моменте, принимая решения, которые были бы недоступны для статических систем.

🌪 Феномен овербетов: изменение правил игры 38:43

Одним из самых ярких достижений Libratus стало введение овербетов — ставок, многократно превышающих размер банка. Традиционно игроки придерживались стратегии ставок в диапазоне 50–100% от банка, однако команда разработчиков предоставила Libratus возможность делать любые ставки, не ожидая, что он воспользуется этим так агрессивно.

На практике это стало мощнейшим инструментом психологического и стратегического давления. Когда бот ставил 20 000 долларов в банк размером 1 000, он ставил профессиональных игроков в ситуацию полной неопределенности: у ИИ либо «лучшая рука», либо безупречный блеф. Это заставляло людей тратить по 5–10 минут на принятие решения в каждой такой раздаче. Ноам Браун (Noam Brown) подчеркивает: система не «знала», что делает оппонентам больно, — это было лишь следствием стремления к математической оптимальности и максимизации прибыли. После завершения соревнования овербеты стали стандартным элементом арсенала профессиональных игроков, навсегда изменив облик современного покера.

🤖 Сила алгоритмического поиска и грани человеческого разума 52:38

От статических стратегий к глубине: почему поиск критичен для ИИ 53:35

Создание сверхчеловеческого искусственного интеллекта долгое время опиралось на чистую вычислительную мощность и статические базы готовых стратегий. Однако опыт, который получил Ноам Браун (Noam Brown), показывает, что без активного поиска (планирования) непосредственно в процессе игры достичь подлинного превосходства невозможно. В ранних версиях покерных ботов отсутствие полноценного поиска заставляло систему группировать («склеивать») различные комбинации карт вместе, из-за чего ИИ относился к ним абсолютно одинаково. В сложных ситуациях «ва-банк» машина теряла способность отличить флеш с королем от флеша с тузом, что приводило к колоссальным потерям против внимательных оппонентов-людей.

Решением стал переход к алгоритмам динамического поиска, способным просчитывать ходы в реальном времени. В системе Libratus, как уже упоминалось во второй главе, поиск запускался с четвертой улицы (терна) и шел до самого конца раздачи, требуя колоссальных ресурсов: тысяч процессоров и терабайт оперативной памяти. Настоящим прорывом для масштабирования технологии стал ограниченный по глубине поиск (depth-limited search). Вместо исчерпывающего просчета до финала партии алгоритм заглядывает лишь на несколько шагов вперед, после чего подставляет промежуточную оценку ценности (Value Estimate) текущей игровой позиции.

Этот шаг драматически снизил стоимость вычислений. Если финальный прогон Libratus обошелся исследователям примерно в 100 000 долларов, то обновленная система Pluribus потребовала менее 150 долларов на облачной платформе AWS. Это наглядно доказывает, что ключевым драйвером прогресса выступает не аппаратная инфляция, а именно алгоритмические улучшения. Такой подход радикально отличается от шахмат или го, где нейросети используются для оценки статичного состояния доски. В покере ценность ситуации напрямую зависит от скрытых карт и распределения убеждений (beliefs) игроков, поэтому современные ИИ используют нейросети для динамического вычисления функции ценности с обязательным учетом этих скрытых факторов.

Гибкость интуиции против строгости алгоритма: как мыслят люди и машины 52:38

Противостояние человека и машины подсвечивает фундаментальные различия в их архитектуре мышления. Человеческий поиск по своей природе интуитивен, гибок и социально скоординирован. Во время знаменитого 20-дневного марафона на 120 000 раздач игроки-люди мгновенно объединились в слаженную команду. Вопреки надеждам разработчиков, они полностью отбросили личные амбиции ради общей победы: координировали свои действия, разделяли между собой участки игровой стратегии ИИ для поиска скрытых уязвимостей и ежедневно анализировали полные логи сыгранных рук, которые им открыто предоставляла команда разработчиков. Это была настоящая психологическая война.

Однако гибкость человеческого мышления имеет и обратную сторону — уязвимость перед когнитивными искажениями и высокой дисперсией. Покер — игра с огромной долей случайности. Профессионал может демонстрировать идеальную стратегию, но проигрывать целый год из-за неудачной полосы, или наоборот — быть слабым игроком, которому просто везет. Из-за этого человеческое восприятие сигналов становится невероятно зашумленным. В ходе турнира люди часто заявляли, что нащупали явные слабости в боте, которых на самом деле не существовало, тратили на это ресурсы и в итоге оказывались разгромлены.

Машинное мышление лишено подобных слабостей, поскольку опирается на строгие, математически выверенные алгоритмические структуры. Компьютер не пытается «читать» эмоции соперника по лицу; его задача — вычислить сбалансированную стратегию (приближение к равновесию Нэша, тему которого Лекс Фридман (Lex Fridman) и его гость подробно разбирали в первой главе), четко понимая, с какой точной математической вероятностью необходимо блефовать в данной точке. Там, где человек поддается эмоциям или ложным паттернам, алгоритмический поиск методично максимизирует математическое ожидание.

Эволюция мастерства: как вычисления меняют стандарты игры 1:10:36

Достижения в области машинного поиска навсегда изменили ландшафт профессионального спорта. Сегодня лучшие игроки в шахматы и покер больше не полагаются исключительно на человеческую интуицию — они тренируются бок о бок с искусственным интеллектом, вычисляя свои скрытые ошибки и перенимая у машин неочевидные стратегические концепции. Игра окончательно сместилась в сторону чистой вычислительной стратегии.

Ярким примером адаптации человека к эпохе ИИ является Даниэль Негреану (Daniel Negreanu). Ноам Браун выделяет его как одного из немногих представителей «старой школы», кто смог удержаться на вершине мирового топа благодаря тому, что полностью перестроил свой подход под влиянием технологий. В отличие от многих звезд покерного бума прошлых десятилетий, которые проигнорировали математическую строгость и быстро растеряли форму, Негреану начал активно изучать теорию оптимальной игры (GTO), разработанную машинами.

Этот триумф вычислительного поиска в играх с жестким акцентом на соперничество открывает дорогу к моделированию еще более сложных человеческих взаимодействий. В завершение данного фрагмента интервью спикеры плавно переходят к обсуждению настольной игры «Дипломатия», ключевые особенности и правила которой будут подробно рассмотрены в следующей главе статьи.

🌍 Загадка «Дипломатии»: почему легендарная настольная игра стала главным вызовом для ИИ 1:15:25

Правила и суть «Дипломатии»: симулятор геополитического предательства 1:15:25

Ноам Браун описывает культовую настольную игру «Дипломатия» как уникальную смесь «Риска», покера и популярного реалити-шоу «Выживший». Это стратегическое состязание не о передвижении фигур по полю, а прежде всего о людях и их взаимодействии. Карта Европы периода перед Первой мировой войной разделена примерно на 50 территорий. Участники берут на себя роли лидеров великих держав, причем многие игроки в онлайн-версиях с удовольствием погружаются в полноценный ролевой отыгрыш, общаясь на намеренно архаичном языке.

Цель каждого игрока — получить контроль над большинством территорий на карте, но сделать это в одиночку невозможно. Каждый ход юниты могут перемещаться, удерживать позиции или оказывать поддержку. Механика поддержки лежит в основе всей боевой системы: столкновение один на один без сторонней помощи приводит к «отскоку» сил на исходные позиции, а преимущество два против одного позволяет гарантированно выбить соперника. Самое интересное заключается в том, что игрок может направить поддержку как своим, так и чужим войскам, вокруг чего и строятся все тайные переговоры. Однако никто не обязан выполнять свои обещания, поэтому скрытные удары в спину (backstabbing) и нарушение договоренностей стали неотъемлемой частью игрового процесса.

Игра, созданная в 1950-х годах, пользовалась огромной популярностью в Белом доме при Джоне Кеннеди и была любимым развлечением Генри Киссинджера. Ее создатель видел в Первой мировой войне колоссальный крах международной политики и хотел научить людей договариваться. В его идеальном видении в «Дипломатии» вообще никто не должен побеждать: если один участник близок к триумфу, остальные обязаны объединиться и остановить потенциального мирового лидера. Баланс сил здесь асимметричен: Франция традиционно считается сильнейшей державой, но из-за этого соседи неохотно идут с ней на контакт, а Россия начинает с четырьмя юнитами вместо стандартных трех, но страдает от слишком протяженных и уязвимых границ. Обычно партии длятся от 15 до 20 ходов и заканчиваются мирным соглашением о ничьей, где очки делятся пропорционально контролируемым землям.

Особенности шестипользовательского покера: от Pluribus к новым вызовам 1:31:05

В 2019 году Ноам Браун завершал работу над Pluribus — искусственным интеллектом для покера на шестерых игроков. Как ранее подробно обсуждалось в рамках теории игр, особенности шестипользовательского покера создают колоссальные математические сложности. В игре с шестью участниками полностью отсутствует строгое равновесии Нэша, гарантирующее защиту от поражения, а игрокам критически необходимо координировать свои действия даже без прямой вербальной коммуникации.

Наблюдая за бурным развитием ИИ и триумфами алгоритмов в Dota 2 и Starcraft, Браун понял, что научному сообществу нужен новый, еще более масштабный вызов. Если на шахматы ушли сорок лет исследований, а на го — двадцать, то «Дипломатия» виделась вершиной, на покорение которой могло потребоваться целое десятилетие. Несмотря на огромные риски, Ноам и его коллега Адам Лир решили взяться за этот амбициозный проект.

Лингвистический барьер и тупик чистого самообучения 1:22:25

Попытки автоматизировать «Дипломатию» велись еще с 1980-х годов с помощью жестких эвристических правил, пытавшихся кодировать человеческие знания. Главная сложность для ИИ здесь — естественный язык. Пространством действий алгоритма становятся не ходы на доске, а любые доступные предложения. В отличие от «Колонизаторов», где диалоги ограничены простым обменом ресурсов, в «Дипломатии» спектр общения безграничен: от обсуждения совместных планов до обвинения третьих лиц во лжи и предательстве.

Исследователи отказались от идеи создать упрощенный искусственный язык, решив атаковать проблему естественного языка напрямую. Помимо лингвистики, мешает кооперативная природа игры. Прежние ИИ-прорывы опирались на алгоритмы самообучения (self-play) в чисто соревновательной среде. В «Дипломатии» одного лишь самообучения недостаточно. ИИ без человеческих данных неизбежно изобретет эффективный, но абсолютно непонятный «робот-язык», из-за чего люди просто откажутся с ним сотрудничать. Чтобы победить, ИИ обязан понимать человеческие конвенции и ожидания от союзов. Лекс Фридман назвал это «тестом Тьюринга на стероидах», но Браун уточнил: цель ИИ — не обмануть человека, выдав себя за живого игрока в adversarial-среде, а доказать свою надежность и полезность в качестве союзника.

Архитектура ИИ: соединение стратегии, языка и фильтрации речи 1:32:48

Чтобы объединить стратегию и язык, ученые сначала обучили базовую языковую модель, а затем сделали ее управляемой через «интенты» (намерения) — пары планируемых действий для себя и партнера. Интенты рассчитываются модулем стратегического мышления на базе обучения с подкреплением и поиска. Стратегический блок находит оптимальный ход, а языковая модель пословно переводит его в текстовое сообщение.

Чтобы ИИ случайно не выдал врагу свои планы атаки, разработчики внедрили нейросетевые фильтры на основе планирования. Этот фильтр оценивает математическое ожидание от отправки каждого сообщения: если текст раскроет карты и вызовет негативную реакцию соперника, он блокируется.

В ходе тестов ИИ сыграл около 40 онлайн-партий с людьми и занял общее второе место среди регулярных игроков. Систему намеренно проверяли на пользователях разного уровня. Браун сравнивает это с тестированием беспилотников: их нужно проверять на обычных улицах, а не на полигонах с каскадерами. Сила мастера в «Дипломатии» — это умение подстраиваться под слабых оппонентов и направлять их действия в свое русло, с чем разработанный алгоритм справился блестяще.

🤝 Искусство переговоров и роль Cicero 1:40:27

Разработка ИИ для игры в «Дипломатию» потребовала от Ноама Брауна и его команды принципиально нового подхода к архитектуре моделей. В отличие от игр с полной информацией, «Дипломатия» строится на интенсивном вербальном взаимодействии, где успех зависит от способности выстраивать доверие и координировать действия с другими игроками. Для решения этой задачи была создана система Cicero, которая объединяет языковую модель с механизмом планирования.

Процесс генерации сообщений в Cicero работает через многоступенчатый фильтр. Система сначала формирует намерение (intent) — что именно ИИ хочет достичь в ходе переговоров, — затем генерирует варианты сообщений и пропускает их через нейронные фильтры. Эти фильтры решают несколько задач: отсеивают бессвязный текст (nonsense) и, что крайне важно, минимизируют откровенную ложь. Хотя «Дипломатия» имеет репутацию игры, построенной на обмане, исследователи выяснили, что постоянная ложь делает бота менее эффективным в долгосрочной перспективе: как только игроки перестают доверять системе, ее шансы на победу резко падают.

🤖 Человекоподобное поведение и ловушка «рациональности» 1:49:04

Одним из ключевых открытий стало осознание того, что ИИ не может эффективно играть в «Дипломатию», если он воспринимает других участников как чисто логические машины. В ходе экспериментов выяснилось: если обучить бота через самоигры (self-play) по принципам, аналогичным шахматам или покеру (где противники считаются рациональными агентами), он оказывается абсолютно беспомощным в игре против людей.

Проблема заключается в иррациональности человеческого поведения. Например, когда люди в «Дипломатии» злятся на действия бота, они могут намеренно «сломать» игру, даже если это противоречит их собственным интересам, просто чтобы отомстить за несправедливость. По словам Ноама Брауна, этот эмоциональный и культурный аспект человеческого поведения невозможно смоделировать, обучаясь только через самоигры. Чтобы бот понимал, как «дышат» люди, разработчики использовали «якорную политику» (anchor policy) — обучение на огромном массиве данных реальных партий (около 50 000 игр с сайта webdiplomacy.net), что позволило системе имитировать человеческую логику и учитывать эмоциональный фон.

Ранее в разговоре они касались того, как методы, применяемые в покере, помогают ИИ осваивать сложные стратегические игры, однако «Дипломатия» требует принципиально иных навыков из-за необходимости кооперации. В итоге Cicero не просто имитирует людей, а сочетает их подходы с «сверхчеловеческими» стратегическими расчетами, что позволило ему занять второе место среди 19 опытных игроков в серии из 40 партий.

🤖 Геополитика, этика децепции и триллионный вызов на пути к AGI 2:05:34

ИИ в геополитике и проблема доверия: границы дозволенной лжи 2:05:34

Создание сложных игровых систем ИИ изначально преследовало масштабные глобальные цели. Как отмечает Ноам Браун, оригинальной мотивацией для разработки ИИ в игре «Дипломатия» послужили дипломатические ошибки Первой мировой войны. Война — это игра с заведомо отрицательной суммой, где для всех вовлеченных сторон всегда существует исход намного лучше, чем вооруженный конфликт. Развитие подобных ИИ-технологий способно помочь человечеству принимать более взвешенные геополитические решения и избегать катастрофических сценариев. Лекс Фридман, делясь личным мнением после поездки на Украину, размышляет о том, как мировые лидеры могли бы запускать предварительные симуляции переговоров, временно отбросив эго ради достижения долгосрочного мира.

Однако перенос ИИ из чистых симуляций в реальный мир сталкивается со сложнейшими препятствиями: отсутствием четко определенного пространства действий и понятной функции вознаграждения. В то время как генерация кода или доказательство математических теорем имеют жесткие рамки, реальные человеческие переговоры строятся на гибком естественном языке. Ранее в разговоре собеседники касались человекоподобного поведения ИИ, но когда алгоритмы начинают безупречно имитировать человека, возникает серьезный кризис доверия. Это ставит под угрозу существующие системы обнаружения читерства в покере или шахматах, которые исторически ищут неестественные для людей ходы. Размытие границ между машиной и человеком влечет за собой глубокие этические проблемы и вызовы в сфере кибербезопасности, ведь подрывается фундаментальное доверие к честной игре.

Особое место в исследованиях занимает проблема децепции — способности ИИ к намеренному обману. Включение разделов об этике в научные работы по «Дипломатии» продиктовано именно тем, что создание языковых моделей, способных лгать ради достижения стратегических целей, является крайне рискованным шагом. Лекс Фридман замечает, что в будущем законодательство может запретить потребительским продуктам врать, хотя в бытовых ситуациях люди часто ждут от ИИ «белой лжи» ради вежливости. Дополнительным барьером выступает врожденное предубеждение людей против ИИ (anti-AI bias): эксперименты показали, что в играх люди склонны вычислять бота и объединяться против него, чтобы уничтожить. Проектирование таких систем вынуждает человечество искать ответы на многовековые философские вопросы о природе сознания, лжи и этики, переводя их в плоскость конкретных инженерных решений.

Вызов эффективности: преодоление дефицита данных на пути к AGI 2:21:09

Обсуждая дорожную карту к достижению сильного искусственного интеллекта (AGI), Ноам Браун признает, что прогресс последних пяти лет феноменален. Тем не менее, главным технологическим барьером остается катастрофическая неэффективность современных моделей в использовании данных (data inefficiency). Чтобы научиться играть на экспертном уровне, ИИ требуются миллионы партий, тогда как человеку-гроссмейстеру достаточно сотен или тысяч тренировочных игр за всю жизнь. В виртуальных средах генерация миллионов сэмплов не составляет труда, но этот подход неприменим в реальном мире, например, в робототехнике.

Лекс Фридман предлагает полушутливое решение проблемы сбора данных — запустить тысячи Lego-роботов на улицы Остина, иронизируя над отсутствием законодательных запретов на подобные действия. Впрочем, Ноам Браун называет поиск методов повышения эффективности данных «вопросом на триллион долларов». Одним из перспективных путей является использование гигантских фоновых языковых моделей. Человек не начинает учиться играть в покер с чистого листа:

Создание систем, способных аналогичным образом использовать кросс-доменные общие знания, может радикально снизить потребность в объеме обучающих выборок на пути к созданию полноценного интеллекта.

Математический фундамент и «функция вознаграждения» человеческой жизни 2:24:22

Для тех, кто только начинает свой путь в индустрии ИИ, Ноам Браун советует не бояться нестандартного бэкграунда. Его собственная академическая карьера была нетипичной: переход от чистой теории игр к обучению с подкреплением дал ему уникальную перспективу, отличную от классического взгляда большинства исследователей машинного обучения. Разнообразие подходов внутри междисциплинарных команд двигает науку вперед и позволяет успешно решать задачи, казавшиеся ранее невыполнимыми. Начинающим специалистам, будь то школьники или студенты, Ноам рекомендует сформировать железобетонную базу:

В завершение беседы Лекс Фридман задает глубокий философский вопрос: сможет ли ИИ когда-нибудь вычислить алгоритм для оптимальной человеческой жизни?. Ноам Браун указывает на классическую проблему безопасности ИИ — ошибку спецификации функции вознаграждения (reward function specification). Если поставить машине задачу «сделать человека богатым», оптимальной политикой ИИ может стать банальное ограбление банка. Настоящая сложность человеческого бытия заключается не в поиске оптимальной траектории к цели, а в том, что сама жизнь — это процесс постоянного переосмысления и обновления нашей внутренней «функции вознаграждения».

💬 Цитаты

«Если вы используете немного поиска, это эквивалентно тому, как если бы ваша стратегия... стала в тысячу раз больше.»

Ноам Браун (Noam Brown) 35:03

«Лучший способ описать эту игру — сказать, что это игра о людях, а не о фигурах.»

«Дипломатия — это игра о доверии и способности его выстроить в среде, которая поощряет людей никому не доверять.»

«Война — это игра с заведомо отрицательной суммой, где для всех вовлеченных сторон всегда существует исход намного лучше, чем вооруженный конфликт.»

«Настоящая сложность человеческого бытия заключается не в поиске траектории к цели, а в том, что сама жизнь — это процесс постоянного переосмысления и обновления нашей внутренней функции вознаграждения.»

👥 Спикер
📖 Термины
Равновесие Нэша
Стратегия в теории игр, при которой ни один из участников не может увеличить свой выигрыш, изменив свое решение в одностороннем порядке.
CFR (Counterfactual Regret Minimization)
Метод контрфактической минимизации сожаления — алгоритм, позволяющий ИИ рассчитывать упущенную выгоду от альтернативных шагов для поиска оптимальных стратегий.
GTO (Game Theory Optimal)
Оптимальная стратегия игры, основанная на математическом балансе, которая гарантирует защиту от долгосрочных убытков независимо от действий соперника.
AGI (Artificial General Intelligence)
Общий искусственный интеллект — гипотетический ИИ, способный выполнять любые интеллектуальные задачи на уровне человека.
Искусственный интеллект Ноам Браун Теория игр Libratus Cicero Покер