Исследование и обучение: как оптимизировать поиск стратегий в RL 0:05
Проблема исследования (exploration) — одна из фундаментальных задач в обучении с подкреплением (reinforcement learning, RL). Суть её заключается в поиске баланса между использованием уже известных стратегий, приносящих вознаграждение (exploitation), и пробой новых действий для получения лучшего результата в будущем. В условиях, когда среда содержит разреженные сигналы вознаграждения — например, как в игре Montezuma's Revenge, где нужно совершить длинную цепочку действий для получения ключа, — стандартные RL-методы часто оказываются неэффективны.
Бандиты как модель для понимания процесса
Для анализа exploration исследователи часто используют упрощённую модель — многоруких бандитов (multi-armed bandits). В этой формулировке RL-агент сталкивается с задачей выбора действия в одношаговом временном горизонте без учёта состояния (state).
- Regret (сожаление): Ключевая метрика качества алгоритма, измеряющая разницу между ожидаемым вознаграждением от оптимального действия и вознаграждением от реально выбранных действий.
- Линейный рост сожаления: Если алгоритм просто выбирает случайные действия, сожаление растёт линейно, что говорит об отсутствии обучения.
- Сублинейный рост: «Умные» алгоритмы демонстрируют сублинейный рост сожаления, постепенно «выравнивая» кривую, когда агент переходит в фазу эксплуатации.
Существуют два основных подхода к Exploration в бандитах:
- Оптимизм в условиях неопределённости (Upper Confidence Bound): Добавление «бонуса» за неопределённость (вариативность) к оценке среднего вознаграждения действия. Если мы мало знаем о действии, мы считаем его потенциально хорошим.
- Постериорное сэмплирование (Posterior Sampling): Агент моделирует распределение вероятностей для наград каждого действия. Затем он сэмплирует (выбирает) модель мира из возможных вариантов и действует оптимально согласно этой модели.
Проблемы масштабирования: от игр к реальности
Перенос методов для бандитов в большие среды (робототехника, языковые модели) сталкивается с проблемой неразрешимости (intractability). В задачах со сложным пространством состояний исследование «с нуля» практически невозможно.
В больших доменах современные системы полагаются на другие стратегии:
- Демонстрации: Использование записей действий экспертов в качестве отправной точки для обучения.
- Предобученные модели: Использование базовых моделей (например, трансформеров), которые уже обладают знаниями о языке или базовых физических взаимодействиях.
- Формирование вознаграждений (reward shaping): Искусственное введение плотных сигналов вознаграждения для направления exploration.
Алгоритм DREAM: разделение исследования и исполнения
Одной из перспективных разработок является алгоритм DREAM (Decoupled Reward-free Exploration and Execution in Meta-RL), решающий проблему сопряжения (coupling) обучения исследованию и исполнения задачи.
Традиционное сквозное (end-to-end) обучение мета-RL часто страдает от «курицы и яйца»: агент не может выучить задачу, пока не научится исследовать, и наоборот. DREAM предлагает декомпозицию:
- Task Identification: Агент обучается предсказывать идентификатор (или латентное представление) задачи, просто собирая опыт.
- Execution Policy: Отдельная политика обучается решать конкретную задачу, используя идентификатор, полученный на этапе исследования.
Вариационный информационный «бутылочное горлышко» (Variational Information Bottleneck)
Чтобы агент не запоминал «лишнюю» информацию (например, цвет стен, не влияющий на выполнение задания), используется механизм сжатия представлений. В нейронную сеть добавляется шум, а в функцию потерь — регуляризация, минимизирующая величину латентного представления задачи. Это вынуждает модель оставлять в представлении только то, что критически важно для получения награды.
Согласно данным исследований, DREAM показывает значительно большую эффективность в количестве требуемых сэмплов по сравнению со сквозной оптимизацией, особенно по мере усложнения среды.
Применение в образовании: автоматическая проверка кода
Алгоритм был успешно применён в Стэнфордском университете (CS106A) для автоматизации оценки студенческих программ.
- Суть метода: Различные студенческие программы интерпретировались как разные задачи. RL-агент обучался находить баги, намеренно имитируя поведение, приводящее к ошибкам (например, пропуск мяча в игре).
- Результаты: В весеннем квартале 2020 года использование meta-RL помогло ассистентам преподавателей (TA) ускорить процесс проверки на 44% и повысить точность оценивания на 6%.