DREAM: как научить ИИ исследовать и обучаться эффективнее

Stanford Online 2,3 тыс. 1 ч 12 мин 3 мин 08.12.2025
Главное

Исследование и обучение: как оптимизировать поиск стратегий в RL 0:05

Проблема исследования (exploration) — одна из фундаментальных задач в обучении с подкреплением (reinforcement learning, RL). Суть её заключается в поиске баланса между использованием уже известных стратегий, приносящих вознаграждение (exploitation), и пробой новых действий для получения лучшего результата в будущем. В условиях, когда среда содержит разреженные сигналы вознаграждения — например, как в игре Montezuma's Revenge, где нужно совершить длинную цепочку действий для получения ключа, — стандартные RL-методы часто оказываются неэффективны.

Бандиты как модель для понимания процесса

Для анализа exploration исследователи часто используют упрощённую модель — многоруких бандитов (multi-armed bandits). В этой формулировке RL-агент сталкивается с задачей выбора действия в одношаговом временном горизонте без учёта состояния (state).

Существуют два основных подхода к Exploration в бандитах:

  1. Оптимизм в условиях неопределённости (Upper Confidence Bound): Добавление «бонуса» за неопределённость (вариативность) к оценке среднего вознаграждения действия. Если мы мало знаем о действии, мы считаем его потенциально хорошим.
  2. Постериорное сэмплирование (Posterior Sampling): Агент моделирует распределение вероятностей для наград каждого действия. Затем он сэмплирует (выбирает) модель мира из возможных вариантов и действует оптимально согласно этой модели.

Проблемы масштабирования: от игр к реальности

Перенос методов для бандитов в большие среды (робототехника, языковые модели) сталкивается с проблемой неразрешимости (intractability). В задачах со сложным пространством состояний исследование «с нуля» практически невозможно.

В больших доменах современные системы полагаются на другие стратегии:

Алгоритм DREAM: разделение исследования и исполнения

Одной из перспективных разработок является алгоритм DREAM (Decoupled Reward-free Exploration and Execution in Meta-RL), решающий проблему сопряжения (coupling) обучения исследованию и исполнения задачи.

Традиционное сквозное (end-to-end) обучение мета-RL часто страдает от «курицы и яйца»: агент не может выучить задачу, пока не научится исследовать, и наоборот. DREAM предлагает декомпозицию:

  1. Task Identification: Агент обучается предсказывать идентификатор (или латентное представление) задачи, просто собирая опыт.
  2. Execution Policy: Отдельная политика обучается решать конкретную задачу, используя идентификатор, полученный на этапе исследования.

Вариационный информационный «бутылочное горлышко» (Variational Information Bottleneck)

Чтобы агент не запоминал «лишнюю» информацию (например, цвет стен, не влияющий на выполнение задания), используется механизм сжатия представлений. В нейронную сеть добавляется шум, а в функцию потерь — регуляризация, минимизирующая величину латентного представления задачи. Это вынуждает модель оставлять в представлении только то, что критически важно для получения награды.

Согласно данным исследований, DREAM показывает значительно большую эффективность в количестве требуемых сэмплов по сравнению со сквозной оптимизацией, особенно по мере усложнения среды.

Применение в образовании: автоматическая проверка кода

Алгоритм был успешно применён в Стэнфордском университете (CS106A) для автоматизации оценки студенческих программ.

💬 Цитаты

«Exploration — это решительный выбор между попыткой совершить что-то новое или следованием лучшей из известных стратегий.»

Преподаватель курса 04:49

«В больших MDP исследование «с нуля» практически нереализуемо.»

Преподаватель курса 32:57
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Exploration
Процесс исследования агентом среды для поиска новых стратегий получения награды.
Exploitation
Использование уже накопленных знаний для получения максимального вознаграждения.
Regret
Разница между максимально возможным вознаграждением и тем, что получил агент.
Meta-RL
Обучение алгоритмов, которые способны быстро адаптироваться к новым задачам на основе предыдущего опыта.
Variational Information Bottleneck
Метод обучения нейросетей, заставляющий модель сохранять только самую полезную информацию и отбрасывать шум.
📊 Цифры
🗓 Хронология
  1. 2020 Эксперимент по внедрению meta-RL для проверки студенческих работ в Стэнфорде.
⚖️ Другая сторона
Искусственный интеллект Reinforcement Learning Meta-RL DREAM algorithm Stanford University exploration