Stanford CS234 Reinforcement Learning I Tabular MDP Planning I 2024 I Lecture 2

Вторая лекция курса Стэнфордского университета CS234 «Обучение с подкреплением» (Reinforcement Learning) посвящена переходу от простых марковских процессов к полноценному планированию в рамках марковских процессов принятия решений (MDP). Профессор Эмма Брунскилл (Emma Brunskill) подробно разбирает математический аппарат, лежащий в основе современных алгоритмов ИИ, от AlphaGo до систем обучения с подкреплением на основе человеческой обратной связи (RLHF).

🧩 От оценки к действию: основы MDP 5:43

Обучение с подкреплением часто начинают с «табулярных» миров, таких как задача о семисостоянии марсохода (Mars Rover) . Хотя эти примеры кажутся упрощенными, они служат фундаментальными кирпичиками для самых продвинутых алгоритмов современности. Главное отличие марковского процесса принятия решений (MDP) от марковского процесса вознаграждения (MRP) — наличие действий.

Марковский процесс принятия решений определяется кортежем из пяти элементов :

S (States): множество состояний.
A (Actions): множество доступных действий.
P (Transition Dynamics): модель динамики, определяющая вероятность перехода в следующее состояние при выборе конкретного действия.
R (Reward Model): функция вознаграждения, зависящая от состояния и действия.
γ (Gamma): коэффициент дисконтирования.

Брунскилл подчеркивает, что если зафиксировать определенную политику (правила выбора действий), то MDP фактически превращается в MRP . Это позволяет использовать все математические инструменты оценки вознаграждений для анализа качества конкретной стратегии.

📈 Стратегия итерирования политики (Policy Iteration) 23:14

Одним из ключевых свойств, которые разработчики стремятся получить в реальных системах, является монотонное улучшение . Это гарантия того, что с каждой новой итерацией вычислений или с получением новых данных система будет принимать решения не хуже, чем на предыдущем этапе.

Алгоритм итерации политики (Policy Iteration) реализует этот принцип через два чередующихся шага :

Оценка политики (Policy Evaluation): вычисление функции ценности (V) или Q-функции для текущей стратегии.
Улучшение политики (Policy Improvement): обновление стратегии путем выбора действий, максимизирующих Q-функцию в каждом состоянии.

Q-функция как ключ к оптимизации

Для шага улучшения критически важно понятие Q-функции (State-Action Value Function) . В отличие от функции ценности V(s), которая оценивает состояние в целом, Q(s, a) показывает ожидаемую выгоду от совершения конкретного действия а в состоянии s с последующим следованием текущей политике.

Профессор Брунскилл представила доказательство того, что новая политика, полученная через выбор argmax по Q-функции, всегда будет монотонно улучшать общий результат . Исключение составляет лишь случай, когда текущая политика уже является оптимальной. Поскольку в табулярном мире количество детерминированных политик конечно ($A^S$), алгоритм гарантированно сходится к оптимуму за конечное число шагов .

🔄 Итерация ценности (Value Iteration) и уравнение Беллмана 47:45

В отличие от итерации политики, где на каждом шаге мы имеем «полноценную» (хоть и плохую) стратегию для бесконечного горизонта планирования, алгоритм итерации ценности (Value Iteration) работает иначе .

Основные идеи Value Iteration:

На каждой итерации вычисляется оптимальная ценность, но для ограниченного горизонта (например, «что лучше всего сделать, если у меня остался всего один шаг?», затем — два шага и так далее) .
Алгоритм использует оператор резервного копирования Беллмана (Bellman backup operator).
Процесс продолжается до тех пор, пока функция ценности не перестанет существенно меняться (сходимость по L-бесконечность норме) .

По словам Брунскилл, итерация ценности не гарантирует монотонного улучшения стратегии на промежуточных этапах, так как она всегда оптимизирует решение для «неправильного» (укороченного) горизонта планирования, пока не достигнет сходимости .

📐 Математика сходимости: оператор сжатия 57:45

Почему мы можем быть уверены, что итерация ценности вообще сойдется к единому решению? Ответ кроется в свойстве оператора Беллмана как «оператора сжатия» (contraction operator) .

Брунскилл математически доказывает, что при коэффициенте дисконтирования γ < 1 применение оператора Беллмана к двум разным векторам ценности уменьшает максимальное расстояние между ними .

Если взять две любые инициализации функции ценности и применить к ним оператор Беллмана, они станут ближе друг к другу как минимум в $1/\gamma$ раз .
Это гарантирует существование единственной неподвижной точки (fixed point) — уникальной функции ценности .

🧪 Практические подходы: симуляция вместо вычислений 1:09:19

В сложных системах, таких как Amazon или базы данных здравоохранения, часто невозможно в явном виде выписать модель динамики (все вероятности переходов между миллионами состояний) . В таких случаях применяется метод Монте-Карло или симуляция.

Вместо суммирования по всем возможным будущим состояниям, разработчики просто «прогоняют» текущую политику через среду множество раз и усредняют полученные вознаграждения . Профессор отмечает, что согласно неравенству Хофдинга, точность такой оценки растет пропорционально $1/\sqrt{n}$, где n — количество симуляций, и это не зависит от размера пространства состояний . Более того, такой подход не требует строгого соблюдения марковского свойства среды, что делает его крайне гибким для реальных задач .