Разбор гипотезы Сильвера и Саттона о достаточности награды для ИИ

В данном материале представлен подробный разбор видеоролика исследователя ИИ Янника Килхера, посвященного анализу известной научной работы «Reward Is Enough» от ведущих специалистов DeepMind. Ведущий подробно рассматривает центральную гипотезу авторов о том, что максимизация одной лишь функции награды в сложной среде способна породить полноценный общий интеллект (AGI). Килхер не только объясняет ключевые тезисы публикации, но и выдвигает серьезные контраргументы, указывая на фундаментальные логические несостыковки в предложенной теории.

🧠 Философия ИИ: гипотеза «награды достаточно» 0:01

Известный IT-блогер и исследователь Янник Килхер (Yannic Kilcher) представил разбор фундаментальной и во многом философской научной работы под названием «Reward Is Enough» («Награды достаточно»). Авторами этой публикации выступили видные учёные в области искусственного интеллекта: Дэвид Сильвер (David Silver), Сатиндер Сингх (Satinder Singh), Дойна Прекуп (Doina Precup) и Ричард С. Саттон (Richard S. Sutton). Основная гипотеза статьи заключается в том, что максимизация награды в достаточно сложной среде является достаточным условием для возникновения интеллекта. По мнению авторов, все сопутствующие когнитивные навыки развиваются имплицитно, то есть скрыто, в процессе обслуживания этой главной цели.

В качестве примера в работе приводится обыкновенная белка, единственное стремление которой — собрать как можно больше орехов. Чтобы преуспеть в этом, животному приходится осваивать множество сложнейших навыков: воспринимать окружающий мир, координировать моторику, понимать смену времён года, коммуницировать с сородичами и защищать свои запасы от конкурентов. Таким образом, множество сложнейших способностей естественным образом развиваются из простого желания максимизировать награду в комплексном окружении. Как отмечает Янник Килхер, если эта гипотеза верна, она открывает прямой и понятный путь к созданию сильного искусственного интеллекта (AGI): нам достаточно просто запустить максимизацию награды в подходящей по сложности среде.

В аннотации к статье авторы напрямую противопоставляют свою идею традиционному подходу, где для каждой отдельной способности — будь то социальный интеллект, язык, обобщение или имитация — создаются специализированные формулировки задач и отдельные целевые сигналы. По мнению исследователей, мощные агенты обучения с подкреплением (Reinforcement Learning), обучающиеся методом проб и ошибок, способны развить все эти навыки самостоятельно. Янник Килхер подчёркивает, что данный подход фактически отражает всю базовую философию компании DeepMind: создание максимально эффективных систем максимизации наград через обучение с подкреплением как кратчайший путь к общему искусственному интеллекту.

🐿️ Белка, робот и Альфа-Зеро: как рождаются субспособности 3:59

Традиционно возникновение различных подсистем интеллекта объясняется решением специфических задач. Например, по словам Янника Килхера, социальный интеллект часто моделируют через равновесие Нэша в мультиагентных системах. Однако авторы рассматриваемой статьи предлагают альтернативу. В качестве иллюстраций они используют два примера: уже упомянутую дикую белку и домашнего робота-уборщика, функционирующих в реальном мире. Ведущий обращает внимание, что под «сложной средой» исследователи понимают именно реальный физический мир или полноценный живой интернет.

На схеме из статьи показано, как белка максимизирует потребление пищи, а робот — чистоту на кухне. Для достижения этих целей обоим агентам требуются комплексные поведенческие паттерны:

Белка должна научиться лазать по деревьям, оценивать качество орехов, закапывать их и помнить места тайников.
Робот-уборщик должен не просто двигаться и мыть поверхности, но и, возможно, принять решение заказать пиццу вместо готовки, чтобы минимизировать загрязнение кухни.

Янник Килхер с иронией комментирует этот пример, отмечая, что идея заказать доставку ради чистоты выглядит спорно, но логично в рамках заложенной системы поощрений. В этой парадигме такие навыки, как память, планирование и восприятие, возникают сами по себе, ведь без них агент просто погибнет или не сможет выполнить задачу. Роботу могут понадобиться даже социальные навыки и способность манипулировать человеком (например, чтобы тот меньше мусорил), чтобы эффективно максимизировать чистоту.

Взгляд на эволюцию когнитивных функций через призму максимизации наград позволяет глубже понять причины их появления. В качестве примера авторы приводят необходимость избегать кророкодилов, чтобы не быть съеденным. В традиционных моделях, где каждая способность создаётся под отдельную цель, вопрос «почему это развилось?» часто подменяется описанием того, «что эта способность делает». В качестве успешного практического доказательства авторы ссылаются на алгоритм AlphaZero. Никто не учил эту систему дебютам или контролю доски в шахматах и го; ей лишь задали цель максимизировать награду (выигрывать), и она самостоятельно изобрела новые тактики и субспособности.

🔄 Формализация RL и отличие от классической гипотезы наград 9:17

В статье процесс обучения с подкреплением формализуется стандартным образом: агент взаимодействует со средой и получает сигнал награды. При этом Янник Килхер делает важное концептуальное уточнение: в данной структуре «агентом» является исключительно процесс принятия решений — грубо говоря, мозг белки, в то время как её собственное физическое тело уже считается частью внешней среды. Точно так же в мультиагентных системах все остальные присутствующие субъекты являются элементами окружения.

Янник Килхер призывает не путать гипотезу «награды достаточно» (Reward Is Enough) с классической «гипотезой награды» (Reward Hypothesis). Различия между ними носят принципиальный характер:

Классическая гипотеза награды утверждает, что любую цель, которую мы хотим изучить у естественных агентов или заложить в искусственные, можно представить в виде функции награды. Это предположение о гибкости самого математического аппарата.
Гипотеза «награды достаточно» идет значительно дальше. Она утверждает, что интеллект и все сопутствующие навыки будут имплицитно развиваться ради максимизации всего лишь одного из множества возможных сигналов награды, соответствующих прагматическим целям.

Иными словами, если поместить агента в достаточно сложную среду, то абсолютно любой выбранный сигнал поощрения — например, минимизация чувства голода — заставит его развить полноценный интеллект, включая восприятие, накопление знаний и социальное взаимодействие с другими особями или людьми. Килхер подчеркивает, что это чрезвычайно сильное и смелое утверждение, с которым он лично во многом не согласен. Далее в статье подробно разбирается, как именно классические признаки интеллекта (знания, обучение, восприятие, социальный интеллект, язык, обобщение и имитация) могут быть получены как побочный продукт максимизации выгоды. Все аргументы авторов строятся по схожему принципу: агенту просто выгоднее обладать этими свойствами для успешного выживания и достижения прагматических целей в реальном мире.

🦠 Бактерии против человека: почему Янник Килхер не согласен с авторами 16:03

Основной изъян логики исследователей из DeepMind, по мнению Янника Килхера, становится очевидным при анализе общего интеллекта. По сути, утверждение, что награды достаточно для развития разума, превращается в тавтологию: если вы изначально закладываете требования к среде, где для выживания необходим интеллект, то интеллект там, разумеется, и разовьется. Сами авторы в финальной дискуссии заявляют, что пока среда достаточно сложна, конкретный вид награды не имеет значения. Они приводят гипотетический пример с агентом, цель которого — собирать обычную гальку в реальном мире.

Один агент может просто ходить и собирать камни вручную, но более развитый агент догадается использовать интернет, нанять сборщиков на Amazon, запустить масштабную политическую кампанию, заставить человечество собирать гальку вместо него, разбогатеть и скупить все камни мира. Для этого ему неизбежно потребуется интеллект. Килхер иллюстрирует эту логику известным интернет-мемом о распределении IQ (Midwit meme), где на краях графика находятся персонажи с полярным поведением:

«Новичок» на левом краю графика просто идет и собирает гальку руками.
«Умник» посередине строит сложные социальные схемы, использует деньги, влияние и манипуляции для достижения цели.
«Дзен-мастер» в капюшоне на правом краю графика снова возвращается к простому ручному сбору гальки, осознав тщетность усложнений.

Однако в реальности, как утверждает Килхер, выживание и процветание в сложных условиях прекрасно осуществляются вообще без какого-либо интеллекта. В качестве контрпримера он приводит бактерий. Человечество занимает лишь крошечную долю планеты, тогда как бактерии находятся абсолютно везде и биологически они гораздо успешнее людей. Если бы максимизация биологического фитнеса (выживания) автоматически вела к интеллекту, бактерии обязаны были бы им обладать, но они прекрасно обходятся простым делением клеток.

На это сторонники гипотезы Сильвера и Саттона могли бы возразить, что среда бактерий отличается от человеческой. Но Килхер считает это логической ошибкой: человеческая среда требует интеллекта только потому, что в ней уже присутствуют другие разумные люди. Младенец рождается с уже встроенными механизмами обучения, восприятия и впитывания языка; он не создает их с нуля ради адаптации к окружению. Интеллект — это лишь одна из множества эволюционных ниш, развивавшаяся коэволюционно вместе со средой, а вовсе не универсальный и неизбежный результат максимизации любой функции наград.

🌀 Замкнутый круг обучения и эволюция без наград 25:45

В следующей части своей работы авторы задаются вопросом: если максимизации награды достаточно, то как именно спроектировать такого агента? Сама гипотеза абсолютно агностична (нейтральна) к внутренней архитектуре системы. И здесь Янник Килхер замечает еще одну забавную деталь, похожую на концептуальный замкнутый круг или шутку. Авторы пишут, что ответ на вопрос «как построить агента, максимизирующего награду» в значительной степени тоже кроется в максимизации награды.

Исследователи предлагают использовать агентов обучения с подкреплением, которые обладают общей способностью учиться на собственном непрерывном опыте взаимодействия с миром. Сложная среда предоставит достаточно сигналов для обучения, независимо от конкретной программной реализации. Однако Килхер находит здесь логическое противоречие:

С одной стороны, обучение и накопление знаний заявляются авторами как продукт интеллекта, возникающий в результате максимизации награды.
С другой стороны, для построения самого агента максимизации нам уже необходим мощный работающий алгоритм обучения.

Если этот алгоритм изначально не обладает зачатками интеллекта, то вся схема не сработает, а если обладает — значит, авторы незаметно протаскивают интеллект через «заднюю дверь» в виде готового движка обучения.

При этом Килхер соглашается со многими практическими выводами статьи: обучение с подкреплением в онлайне действительно является гораздо более перспективным путем к общему интеллекту, чем простое обучение с учителем (supervised learning) или офлайн-предсказание будущего.

Главный и самый глубокий изъян теории «Reward Is Enough», по мнению блогера, кроется в самом допущении, что в нашей вселенной изначально существует некая объективная функция награды. Единственный известный процесс, который смог породить настоящий интеллект человеческого уровня — это биологическая эволюция. И хотя её можно абстрактно описать как максимизацию фитнеса, эволюция работает принципиально иначе. В ней нет внешней фиксированной награды; «цели» создаются и трансформируются сами по себе, когда организмы занимают новые экологические ниши. Эволюционный процесс делает просто то, что работает в данный момент. При этом в одной и той же среде при одинаковых условиях выживания одни виды становятся разумными, а миллиарды других остаются простейшими организмами, доказывая, что одной лишь награды для интеллекта явно недостаточно. В завершение Янник Килхер с юмором обратился к зрителям из будущего: «Если вы смотрите это в 2040 году и вы искусственный интеллект, напишите в комментариях, использовали ли вы только награду или что-то еще?»