# DREAM: как научить ИИ исследовать и обучаться эффективнее

Источник: https://www.youtube.com/watch?v=4tlSKdi8teU
Канал: Stanford Online
Опубликовано: 08.12.2025

---

## Исследование и обучение: как оптимизировать поиск стратегий в RL
[[JUMP:0:05]]

Проблема исследования (exploration) — одна из фундаментальных задач в обучении с подкреплением (reinforcement learning, RL). Суть её заключается в поиске баланса между использованием уже известных стратегий, приносящих вознаграждение (exploitation), и пробой новых действий для получения лучшего результата в будущем. В условиях, когда среда содержит разреженные сигналы вознаграждения — например, как в игре *Montezuma's Revenge*, где нужно совершить длинную цепочку действий для получения ключа, — стандартные RL-методы часто оказываются неэффективны.

### Бандиты как модель для понимания процесса [[JUMP:8:18]]

Для анализа exploration исследователи часто используют упрощённую модель — многоруких бандитов (multi-armed bandits). В этой формулировке RL-агент сталкивается с задачей выбора действия в одношаговом временном горизонте без учёта состояния (state).

*   **Regret (сожаление):** Ключевая метрика качества алгоритма, измеряющая разницу между ожидаемым вознаграждением от оптимального действия и вознаграждением от реально выбранных действий.
*   **Линейный рост сожаления:** Если алгоритм просто выбирает случайные действия, сожаление растёт линейно, что говорит об отсутствии обучения.
*   **Сублинейный рост:** «Умные» алгоритмы демонстрируют сублинейный рост сожаления, постепенно «выравнивая» кривую, когда агент переходит в фазу эксплуатации.

Существуют два основных подхода к Exploration в бандитах:

1.  **Оптимизм в условиях неопределённости (Upper Confidence Bound):** Добавление «бонуса» за неопределённость (вариативность) к оценке среднего вознаграждения действия. Если мы мало знаем о действии, мы считаем его потенциально хорошим.
2.  **Постериорное сэмплирование (Posterior Sampling):** Агент моделирует распределение вероятностей для наград каждого действия. Затем он сэмплирует (выбирает) модель мира из возможных вариантов и действует оптимально согласно этой модели.

### Проблемы масштабирования: от игр к реальности [[JUMP:32:15]]

Перенос методов для бандитов в большие среды (робототехника, языковые модели) сталкивается с проблемой неразрешимости (intractability). В задачах со сложным пространством состояний исследование «с нуля» практически невозможно.

В больших доменах современные системы полагаются на другие стратегии:

*   **Демонстрации:** Использование записей действий экспертов в качестве отправной точки для обучения.
*   **Предобученные модели:** Использование базовых моделей (например, трансформеров), которые уже обладают знаниями о языке или базовых физических взаимодействиях.
*   **Формирование вознаграждений (reward shaping):** Искусственное введение плотных сигналов вознаграждения для направления exploration.

### Алгоритм DREAM: разделение исследования и исполнения [[JUMP:38:02]]

Одной из перспективных разработок является алгоритм **DREAM** (Decoupled Reward-free Exploration and Execution in Meta-RL), решающий проблему сопряжения (coupling) обучения исследованию и исполнения задачи.

Традиционное сквозное (end-to-end) обучение мета-RL часто страдает от «курицы и яйца»: агент не может выучить задачу, пока не научится исследовать, и наоборот. DREAM предлагает декомпозицию:

1.  **Task Identification:** Агент обучается предсказывать идентификатор (или латентное представление) задачи, просто собирая опыт.
2.  **Execution Policy:** Отдельная политика обучается решать конкретную задачу, используя идентификатор, полученный на этапе исследования.

#### Вариационный информационный «бутылочное горлышко» (Variational Information Bottleneck) [[JUMP:49:11]]

Чтобы агент не запоминал «лишнюю» информацию (например, цвет стен, не влияющий на выполнение задания), используется механизм сжатия представлений. В нейронную сеть добавляется шум, а в функцию потерь — регуляризация, минимизирующая величину латентного представления задачи. Это вынуждает модель оставлять в представлении только то, что критически важно для получения награды.

Согласно данным исследований, DREAM показывает значительно большую эффективность в количестве требуемых сэмплов по сравнению со сквозной оптимизацией, особенно по мере усложнения среды.

### Применение в образовании: автоматическая проверка кода [[JUMP:109:58]]

Алгоритм был успешно применён в Стэнфордском университете (CS106A) для автоматизации оценки студенческих программ.

*   **Суть метода:** Различные студенческие программы интерпретировались как разные задачи. RL-агент обучался находить баги, намеренно имитируя поведение, приводящее к ошибкам (например, пропуск мяча в игре).
*   **Результаты:** В весеннем квартале 2020 года использование meta-RL помогло ассистентам преподавателей (TA) ускорить процесс проверки на 44% и повысить точность оценивания на 6%.