Как решать новые задачи в RL без переобучения: разбор Янника Килчера

В видеоролике популярный ИИ-исследователь Янник Килчер (Yannic Kilcher) подробно разбирает научную работу «Fast reinforcement learning with generalized policy updates», авторами которой являются Андре Барретто, Шабо Хо, Диана Борса, Дэвид Сильвер и Дойна Прекуп. В статье предлагается математический фреймворк для обучения с подкреплением (RL), позволяющий агенту решать новые, ранее не виденные задачи без дополнительного обучения, комбинируя уже имеющиеся стратегии. Автор видео анализирует жизнеспособность этого подхода, его математическую основу и ограничения при масштабировании на сложные среды.

🧠 Проблема эффективности данных в глубоком обучении с подкреплением 1:30

Янник Килчер напоминает, что интеграция глубокого обучения и обучения с подкреплением (Deep RL) продемонстрировала выдающиеся результаты в сложных играх, таких как го, Dota 2 (проект OpenAI Five) и StarCraft (алгоритм AlphaStar). Однако ключевым препятствием для широкого внедрения таких систем остается колоссальный объём данных, необходимых для обучения. Современным ИИ-агентам требуются миллионы и миллиарды симуляций, поскольку для каждой новой задачи они вынуждены обучаться абсолютно с нуля.

Авторы рассматриваемой статьи предлагают решать эту проблему методом «разделяй и властвуй» (divide and conquer). По их мнению, комплексные проблемы принятия решений можно естественным образом декомпозировать на несколько подзадач, разворачивающихся последовательно или параллельно. Каждой такой подзадаче присваивается собственная функция вознаграждения, что позволяет легко встроить декомпозицию в стандартный формализм обучения с подкреплением.

📊 Вектор вознаграждений и декомпозиция задач 3:00

Вместо традиционного скалярного вознаграждения в предлагаемом фреймворке вводится понятие вектора вознаграждений. Янник Килчер иллюстрирует это на базовом примере перемещения агента, где сложный маршрут разбивается на элементарные подзадачи: поворот направо, движение прямо и поворот налево. За выполнение каждого действия агент получает положительную награду в соответствующий элемент вектора.

Для сведения многомерного вектора к конкретному числу, определяющему итоговое поведение ИИ, авторы вводят вектор смешивания (mixing vector), обозначаемый как $w$. Финальное скалярное вознаграждение рассчитывается через скалярное произведение транспонированного вектора особенностей и вектора $w$. Таким образом, изменяя веса в векторе $w$, можно настраивать агента на выполнение конкретных миссий, не меняя структуру самой среды.

В стандартном обучении с подкреплением агент оперирует переходами, состоящими из текущего состояния $s$, действия $a$, полученной награды $r$ и следующего состояния $s'$. Цель агента — найти оптимальную стратегию (policy) $\pi$, которая сопоставляет текущее состояние с наилучшим действием. Ценность этого действия оценивается с помощью Q-функции $Q^\pi(s, a)$, показывающей ожидаемую сумму будущих наград при условии следования стратегии $\pi$. Обучение состоит из двух чередующихся шагов:

Оценка стратегии (policy evaluation) — вычисление точной Q-функции для текущей стратегии.
Улучшение стратегии (policy improvement) — выбор действий, максимизирующих Q-значение.

Фреймворк авторов статьи обобщает этот цикл на случай множества стратегий ($\pi_1, \pi_2, \dots, \pi_p$) и множества функций вознаграждения ($r_1, r_2, \dots, r_r$). По утверждению исследователей, при появлении новой задачи $r_{new}$ нет необходимости запускать обучение с нуля — можно скомбинировать имеющиеся стратегии для мгновенного получения качественного решения.

🗺️ Преимущество преемственных признаков (Successor Features) 14:19

Главным математическим инструментом для реализации такого переноса знаний становятся преемственные признаки (successor features). Вводится функция признаков (feature function) $\phi$, которая отображает переход среды в многомерный вектор. Важнейшее ограничение фреймворка, на которое обращает внимание Янник Килчер, заключается в допущении, что функция вознаграждения любой задачи должна являться линейной комбинацией этих базовых признаков: $r = \phi^T w$.

Ведущий подробно описывает пример из статьи — двумерный сеточный мир (Gridworld). В этой среде желтый агент может собирать красные квадраты и синие треугольники. Задачи кодируются с помощью вектора $w$:

Задача 1: сбор только квадратов, вектор $w = [1, 0]$.
Задача 2: сбор только треугольников, vector $w = [0, 1]$.
Задача 3 (новая): собирать квадраты, но избегать треугольников, вектор $w = [1, -1]$.

Преемственные признаки $\psi^\pi(s, a)$ аналогичны Q-функции, но вместо прогнозирования будущей скалярной награды они предсказывают накопленную сумму векторов признаков $\phi$ в будущем при следовании стратегии $\pi$. Благодаря линейности, стандартную функцию ценности $Q^\pi(s, a)$ для любой новой задачи с вектором $w$ можно мгновенно вычислить через простое умножение: $Q^\pi(s, a) = \psi^\pi(s, a)^T w$. По мнению Килчера, это работает идеально, если признаки обладают свойством кумулятивности, однако признаки, завязанные на четность шагов или просто подсчитывающие их, сделают систему бесполезной.

⚙️ Алгоритмы GPE и GPI: обобщенное обновление стратегий 29:06

Алгоритм обобщенной оценки стратегий (Generalized Policy Evaluation, GPE) и обобщенного улучшения стратегий (Generalized Policy Improvement, GPI) позволяет находить оптимальные действия без обучения. На входе алгоритм имеет набор ранее обученных стратегий и их преемственных признаков, а также вектор $w_{new}$ для новой задачи. Алгоритм выполняет следующие шаги:

Вычисляются преемственные признаки для текущего состояния $s$ и всех возможных базовых действий.
Для каждого действия и каждой имеющейся стратегии формируется тензор ожидаемых признаков.
Путем умножения тензора на вектор $w_{new}$ вычисляются Q-значения для всех действий по всем стратегиям.
Выбирается максимум по стратегиям, а затем применяется операция argmax для выбора финального действия.

Графики из статьи показывают, что метод GPI демонстрирует высокую эффективность и мгновенно выдает высокий уровень вознаграждения по сравнению с классическим алгоритмом Q-learning, которому требуется время на раскачку. Тем не менее Янник Килчер называет это сравнение «несколько сомнительным» (shaky). Он подчеркивает, что базовые стратегии ($\pi_1$ и $\pi_2$) изначально обучались на протяжении стольких же шагов симуляции, сколько в итоге потребовалось Q-learning для достижения оптимума. Главная ценность метода, по словам ведущего, в том, что полученная «нулевая» стратегия может служить отличной отправной точкой для последующего быстрого дообучения.

📈 Ограничения, регрессия и непрерывное обучение 37:00

Если вектор $w$ новой задачи заранее неизвестен, авторы предлагают расширение алгоритма — GPI с регрессией весов (regress W). Агент может оценивать получаемые награды на лету и с помощью линейной регрессии восстанавливать истинный вектор $w$. По мнению Килчера, это очень напоминает классический трансферный метод (transfer learning) в нейросетях, когда веса базовой модели «замораживаются», а обучается только последний полносвязный слой.

Эксперименты с изменением доступных агенту базовых стратегий демонстрируют важные нюансы работы фреймворка. Векторное пространство задач оценивалось по круговой диаграмме, где разные направления задавали типы миссий (совместный сбор объектов или избегание). Килчер выделяет следующие результаты анализа:

Наличие ортогональных базовых стратегий (только сбор квадратов и только сбор треугольников) позволяет неплохо решать смежные задачи, но результаты падают в зонах, требующих избегания объектов.
Использование стратегий, изначально обученных на комбинацию сбора и избегания, обеспечивает наилучшее покрытие пространства задач.
Добавление избыточных стратегий (например, стратегии, нацеленной исключительно на сбор всего подряд) в некоторых случаях, согласно графикам, парадоксально ухудшает итоговую точность выбора действий.

Когда авторы пытаются обойти ограничения линейности среды и предлагают одновременно аппроксимировать и функции признаков, и веса $w$ через нелинейную регрессию, фреймворк, по мнению Килчера, теряет свою элегантность. Ведущий утверждает, что при усложнении задач математические надстройки авторов фактически скатываются обратно к стандартному Q-learning, превращая преемственные признаки в обычные скрытые слои нейросети.

В контексте непрерывного обучения (lifelong learning) концепция выглядит многообещающе: агент сталкивается с задачей, извлекает релевантный опыт из базы данных стратегий, строит стартовое решение, улучшает его с помощью RL и сохраняет новую стратегию обратно в базу. Однако Янник Килчер скептически оценивает текущее состояние области разделяй-и-властвуй в RL, заявляя, что большинство иерархических алгоритмов на практике не способны работать глубже, чем на двух-трех уровнях абстракции, из-за крайней сложности их обучения.