Stanford CS234 Reinforcement Learning I Exploration 1 I 2024 I Lecture 11

В Стэнфордском университете в рамках курса CS234 прошла лекция, посвященная проблеме «быстрого» или эффективного по данным обучения с подкреплением (Reinforcement Learning). Профессор Эмма Бранскилл объясняет, почему в реальных задачах — от медицины до образования — мы не можем полагаться на бесконечные симуляции, и как математический принцип «оптимизма в условиях неопределенности» позволяет алгоритмам принимать лучшие решения при минимальном количестве проб и ошибок.

⚖️ Эффективность данных против вычислительной мощности 0:06

В области машинного обучения часто происходит смешение понятий вычислительной эффективности и эффективности использования данных. По мнению профессора Бранскилл, это разделение критически важно для понимания того, где и как можно применять RL-алгоритмы.

В симуляторах, таких как Atari или среды MuJoCo, время вычислений фактически эквивалентно данным. Если у вас есть мощный компьютер, вы можете генерировать бесконечное количество игровых сессий. Однако в реальном мире ситуация иная. Бранскилл выделяет несколько областей, где данные ограничены и дороги:

Здравоохранение: мобильные вмешательства для контроля давления или лечения пациентов.
Маркетинг: выбор объявлений для показа пользователям.
Образование: адаптивные технологии обучения для студентов.
Экология: выработка политики по сохранению дикой природы.

В этих случаях у исследователя может быть всего несколько сотен тысяч записей, что ничтожно мало по сравнению с миллионами итераций в AlphaGo. Поэтому главной задачей становится «выжимание» максимума информации из каждого взаимодействия с реальным миром.

🎰 Проблема многорукого бандита 11:10

Для изучения эффективности данных лектор предлагает начать с простейшей модели RL — задачи о многоруком бандите. Эта концепция, изучаемая с 1920-х годов, исключает понятие «состояний» (states) и фокусируется только на выборе действий (ручек).

[Image of the multi-armed bandit problem showing a player choosing between several slot machines with different reward distributions]

Представьте врача, выбирающего метод лечения перелома пальца из трех вариантов: хирургия, фиксация пластырем или отсутствие вмешательства. Каждый пациент — это новый шанс «дернуть за ручку». Бранскилл подчеркивает, что в базовой модели бандитов процессы считаются независимыми и стационарными: распределение вероятности успеха для каждого метода не меняется от пациента к пациенту.

Почему «жадный» алгоритм — это путь к провалу 17:01

Если алгоритм будет просто выбирать действие, которое кажется лучшим на основе текущего среднего результата (жадный подход), он рискует навсегда застрять на субоптимальном решении.

Как утверждает Бранскилл, если в начале эксперимента хирургия случайно даст плохой результат, а пластырь — хороший, жадный алгоритм больше никогда не вернется к хирургии, даже если она объективно эффективнее в 90% случаев. Это иллюстрирует фундаментальную необходимость исследования (exploration).

📉 Математика потерь: понятие «регрета» (Regret) 19:48

Для оценки качества алгоритмов в теории бандитов используется понятие регрета (сожаления) — это разница между наградой, которую агент мог бы получить, выбирая всегда оптимальное действие, и тем, что он получил на самом деле.

[Image of linear vs logarithmic regret growth over time, illustrating sublinear regret]

Профессор классифицирует типы роста регрета:

Линейный регрет: агент совершает плохие действия бесконечно долго. Это происходит при использовании чисто жадного алгоритма или статичного $\epsilon$-greedy подхода.
Константный регрет: идеальный случай, когда агент за конечное число шагов находит лучшее действие и далее не ошибается.
Сублинейный регрет: (например, логарифмический) агент продолжает ошибаться, но всё реже и реже. Это цель большинства современных алгоритмов.

Бранскилл отмечает, что согласно классическим работам Лаи и Роббинса (1950-е гг.), нижняя граница регрета для любой задачи бандитов пропорциональна $\log