Как научить ИИ думать абстракциями: гид по непрерывному RL

Изучение механизмов иерархического и непрерывного обучения с подкреплением открывает новые горизонты на пути к созданию универсального искусственного интеллекта. В рамках подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон обсудил эти фундаментальные вопросы с Дойной Прекуп, руководителем исследовательской группы DeepMind в Монреале и профессором Университета Макгилла. В центре дискуссии оказались математические границы выражения человеческих предпочтений через функции награды, автоматический поиск подцелей в сложных средах и адаптация ИИ-агентов к меняющимся условиям реального мира.

🧠 От лекций Саттона до DeepMind: путь Дойны Прекуп в ИИ 0:00

Исследования в области обучения с подкреплением (RL) за последние десятилетия превратились из узкой академической ниши в один из главных драйверов развития искусственного интеллекта. Дойна Прекуп (Doina Precup) совмещает руководство монреальской командой DeepMind с профессорской деятельностью в Университете Макгилла, где она преподает с 2000 года. Ее путь в этой научной дисциплине начался во время докторантуры в Университете Массачусетса в Амхерсте. В 1995 году ей посчастливилось стать слушательницей самого первого курса по обучению с подкреплением, который Энди Барто и Рич Саттон читали по черновикам своего легендарного учебника. По словам исследовательницы, именно этот опыт навсегда определил ее научные интересы.

Интерес Дойны Прекуп к RL обусловлен тем, что этот подход предоставляет наиболее естественную методологию для размышлений об универсальном искусственном интеллекте (AGI). В отличие от классического обучения с учителем, где агенту жестко диктуют правильные ответы, RL предлагает изящный баланс: сигналы награды формулируют задачу, но агент сохраняет свободу действий, исследуя открытую среду и обучаясь на основе непосредственного взаимодействия с ней.

🏗️ Иерархическое обучение: выход за рамки «мышечных сокращений» 2:15

Одной из ключевых тем многолетней работы Дойны Прекуп является иерархическое обучение с подкреплением (Hierarchical RL), сфокусированное на создании абстрактных представлений, особенно во временной шкале. Как отмечает гостья подкаста, традиционные задачи RL часто формулируются на слишком детализированном, микроскопическом уровне, который можно сравнить с управлением отдельными мышечными сокращениями. Однако для решения сложных долгосрочных задач интеллектуальному агенту необходимо оперировать вариативными и более крупными временными интервалами.

Прекуп приводит понятную аналогию с приготовлением ужина. Когда человек готовит еду, он не задумывается о траектории движения каждой мышцы при перемешивании блюда или перемещении кастрюли на плиту. Вместо этого человеческое мышление работает на макроуровне: какие ingredients необходимы, нужно ли сходить за ними в магазин и в каком порядке выполнять этапы рецепта. Человек способен рассуждать на множестве уровней абстракции — как в отношении времени, так и в отношении состояний или признаков среды.

Дойна Прекуп стремится к тому, чтобы ИИ-агенты научились автоматически извлекать и использовать подобные абстракции непосредственно из потока данных своего взаимодействия с миром. В рамках этого направления ее команда развивает теорию временных абстракций, получившую название «опции» (options), исследует разномасштабные модели планирования и концепцию «аффордансов» (affordances), определяющих, какие действия доступны агенту в конкретных ситуациях. При этом фундаментальный вопрос о том, как именно агенты должны самостоятельно решать, какие абстракции им необходимо выучить, до сих пор остается открытым.

🎯 Гипотеза «Награды достаточно» и математика марковских функций 4:22

Важной вехой в дискуссиях вокруг философии ИИ стала опубликованная в 2020 году статья «Reward is enough» («Награды достаточно»), авторами которой, помимо Дойны Прекуп, выступили Дэвид Сильвер, Рич Саттон и Сатиндер Сингх. В этой работе ученые сформулировали гипотезу, согласно которой максимизация простого сигнала награды в сложной среде способна подтолкнуть агента к развитию всех ключевых атрибутов интеллекта, которые принято считать признаками разумности. В качестве примера Прекуп указывает на поведение белок. У белки очень простая целевая функция — выжить, для чего ей нужно собирать и есть орехи. Однако в процессе максимизации этой базовой награды у животного развиваются поразительно сложные когнитивные способности:

Долговременная память, позволяющая точно помнить места сокрытия запасов.
Способность к планированию и прогнозированию времени года, когда пища станет недоступной.
Социальное моделирование и навыки обмана, необходимые для защиты своего тайника от сородичей.

По мнению авторов гипотезы, аналогичный эволюционный путь применим и к агентам общего ИИ, у которых развитые навыки планирования, памяти и моделирования мира возникнут как побочный продукт максимизации вознаграждения.

Для математического заземления этой концепции Дойна Прекуп совместно с Дэвидом Абелем и коллегами из DeepMind и Брауновского университета провела исследование «On the expressivity of Markov reward», удостоенное награды за лучшую статью (Best Paper Award) на конференции NeurIPS. Ученые построили формальную теоретическую модель взаимодействия, где субъект Алиса формулирует задачу, а агент Боб пытается ее оптимизировать. Боб существует в рамках марковского процесса принятия решений (MDP), где на каждом шаге он наблюдает состояние, совершает действие, получает числовую награду и переходит в следующее состояние с учетом фактора дисконтирования. Алиса же имеет в голове интуитивные предпочтения относительно поведения Боба. Например, в задаче навигации по сетке она хочет, чтобы Боб быстрее добирался до цели, но строго избегал попадания в лаву. Математический анализ выявил как ограничения, так и неожиданные преимущества марковских функций наград.

Исследование привело к двум ключевым результатам:

Отрицательный результат: далеко не любые человеческие предпочтения можно напрямую упаковать в марковскую функцию наград без изменения пространства состояний. По словам Прекуп, если Алиса хочет заставить Боба всегда двигаться исключительно в одном направлении (например, только вверх или только вниз), классический марковский агент не сможет выполнить это требование, так как его решения принимаются независимо на каждом шаге (i.i.d.). Для реализации такого поведения потребовалось бы искусственно расширять пространство состояний, добавляя туда память о предыдущих действиях.
Положительный результат: ученые доказали существование алгоритма с полиномиальным временем работы, который позволяет Алисе либо рассчитать марковскую функцию награды, строго соответствующую ее предпочтениям, либо математически доказать, что такой функции не существует. Этот алгоритм базируется на методе линейного программирования (LP). Он сопоставляет стационарные распределения приемлемых политик поведения с так называемыми «граничными» (нежелательными) политиками, накладывая систему неравенств. Если система имеет решение, Алиса получает плотную (dense) функцию вознаграждения. По наблюдениям Прекуп, такие выведенные через линейное программирование награды на практике обеспечивают очень высокую скорость обучения агента, выступая в роли эффективного катализатора.

В реальном мире, как подчеркивает Прекуп, человеческие предпочтения не формируются одномоментно, а динамически развиваются во времени. Она приводит забавный пример из личной жизни: когда ее дети были маленькими, она поощряла их за уборку игрушек. Однако один из детей быстро раскусил логику системы вознаграждения и изобрел стратегию «бесконечного цикла» — он раз за разом вываливал все игрушки из ящика, чтобы тут же сложить их обратно и получить награду. Этот классический пример уязвимости функций вознаграждения (известный в гейминге как «кружение лодки на месте») показывает, что в практических приложениях разработчикам необходим постоянный интерактивный контур обратной связи для своевременной корректировки наград на основе наблюдаемых странностей в поведении ИИ.

🧩 Проблема автоматического поиска подцелей и алгоритм Option-Critic 24:28

Возвращаясь к теме иерархического RL, Дойна Прекуп детально описывает структуру фреймворка опций, который она развивает на протяжении многих лет. Математически любая опция состоит из трех компонентов:

Множество инициализации (initiation set) — условия, при которых опция может быть запущена.
Внутренняя политика (internal policy) — алгоритм действий агента внутри опции.
Условие терминации (termination condition) — критерий завершения опции.

В качестве технического примера исследовательница описывает контроллер колесного робота. Опция движения вперед имеет множество инициализации, включающее практически все пространство среды, за исключением зон в непосредственной близости от препятствий. Внутренняя политика предписывает двигаться прямо, а условием терминации становится опасное сближение со стеной. В более сложных интеллектуальных задачах, таких как сборка кубика Рубика, опциями становятся целые последовательности поворотов граней, нацеленные на промежуточные подцели (например, собрать одну сторону кубика). Если человеку эти подцели подсказывают учителя или инструкции, то агент должен находить их сам.

Для решения этой задачи аспирант Дойны Прекуп Пьер-Люк Бэкон несколько лет назад разработал алгоритм Option-Critic. Этот метод использует градиентные подходы, аналогичные классическим архитектурам Actor-Critic, заставляя агента искать подцели непосредственно на пути к получению глобальной награды от среды. Однако на этом пути ученые столкнулись с феноменом «деградации» абстракций: обучившись решать конкретную задачу, агент со временем отбрасывает выученные опции, схлопывая их до простой «плоской» политики.

По мнению Прекуп, это абсолютно естественный процесс, схожий с человеческой автоматизацией навыков: мастера спидкубинга, собирающие кубик Рубика за несколько секунд, уже не думают о промежуточных конфигурациях — действия переходят на уровень мышечной памяти. Если среда агента ограничена одной задачей, иерархия становится избыточной и ведет к переобучению. Чтобы заставить ИИ сохранять абстракции, необходимы сверхсложные, мультизадачные и изменчивые среды, где агенту предстоит прожить долгую «жизнь» и постоянно переключаться между кардинально разными вызовами.

Прекуп проводит параллель между иерархическим RL и сверточными нейросетями (CNN). Если CNN строит иерархию в пространстве признаков (от простых текстур на нижних слоях до сложных объектов на верхних), то Hierarchical RL делает то же самое в пространстве действий. Нижние уровни отвечают за миллисекундные моторные акты, а верхние — за долгосрочные стратегии, длящиеся часами. Правда, в RL, в отличие от CNN, эти границы размыты: повар, замешивающий тесто в течение получаса, должен мгновенно среагировать и сбросить кота со стола, если тот внезапно прыгнет на кухню.

🔄 Непрерывное обучение (Continual RL): жизнь без марковских ограничений 38:10

Традиционная парадигма машинного обучения предполагает работу в конечных марковских процессах с фиксированным числом состояний, куда агент может возвращаться бесконечное число раз. Однако в концепции непрерывного обучения с подкреплением (Continual RL) среда бесконечно больше самого агента, а его время жизни жестко ограничено. В таких условиях ИИ физически не способен посетить каждое состояние хотя бы единожды. Дойна Прекуп вместе со своей аспиранткой Кимией Кетрипал опубликовала на платформе arXiv масштабный обзор, посвященный «бесконечному» обучению с подкреплением (never-ending RL). Исследовательница предлагает амбициозную цель: полностью переписать математический аппарат RL, убрав из него допущения о марковости и стационарности среды.

Одним из простейших способов удержания агента в режиме непрерывной адаптации является использование фиксированного темпа обучения (learning rate) в алгоритмах временных различий (TD-learning). Это заставляет систему постоянно отдавать приоритет самым свежим данным, отбрасывая устаревшие паттерны. Серьезный вызов лежит в плоскости оценки сложности выборки (sample complexity). Как отмечает Прекуп, классическая метрика «регрета» (regret) — разницы между текущим поведением и идеальной оптимальной политикой — теряет смысл в нестационарном мире, поскольку там не существует единой оптимальной стратегии. В связи с этим исследовательская группа Бена Ван Роя из Стэнфордского университета предложила новые подходы, оценивающие регрет внутри динамических классов политик.

Другим перспективным направлением является концепция «трекинга» (tracking), активно развиваемая группой Рича Саттона в Университете Альберты. Трекинг измеряет скорость, с которой агент способен перестроить свое поведение при изменении среды — например, если привычный короткий путь в лабиринте внезапно заблокировали. В этой реальности классическая стратегия исследования среды «оптимизм перед лицом неопределенности» (optimism in the face of uncertainty) перестает работать, так как объять необъятное невозможно.

По мнению Прекуп, на смену ей должны прийти информационно-теоретические методы и явный расчет неопределенности. В качестве аналогии чистого трекинга без фактора активного исследования Прекуп указывает на задачу прогнозирования временных рядов, ярким примером которой является предсказание поведения фондового рынка. Если параметры распределения плавно смещаются во времени, агент теоретически способен уловить этот дрейф и научиться предвосхищать будущие изменения.

🚀 Будущее RL: преодоление переобучения и новые оптимизаторы 48:04

Несмотря на внутренние теоретические барьеры, глубокое обучение с подкреплением (Deep RL) уже продемонстрировало феноменальные прикладные результаты. Дойна Прекуп перечисляет ключевые вехи: от победы алгоритма AlphaGo до удержания стратосферных зондов Loon командой Марка Бельмара и сложнейшего управления высокотемпературной плазмой в термоядерных реакторах, реализованного Мартином Ридмиллером в DeepMind.

Тем не менее, глубинная проблема современного RL, по мнению Прекуп, заключается в том, что оно заимствует технологии аппроксимации функций (глубокие нейросети) из сферы обучения с учителем. Эти сети изначально проектировались под независимые одинаково распределенные данные (i.i.d.), что в корне противоречит природе последовательного взаимодействия в RL. Чтобы подружить эти сущности, инженерам приходится идти на ухищрения вроде буферов воспроизведения опыта (replay buffers), искусственно превращая RL в подобие обучения с учителем.

Ее недавний выпускник Эммануэль Бенджио в своей диссертации наглядно показал эту несовместимость: популярные оптимизаторы (такие как Adam), демонстрирующие великолепные результаты в классическом deep learning, работают крайне неэффективно и показывают плохие результаты при интеграции с алгоритмами временных различий (TD) в обучении с подкреплением. Создание специализированных методов оптимизации и аппроксимации, заточенных исключительно под немарковские, непрерывные потоки данных — это и есть подлинный технологический фронтир, который предстоит освоить научному сообществу на пути к полноценному ИИ.