Профессор Челси Финн об основах глубокого обучения с подкреплением в Стэнфорде

Стэнфордский университет представил обновленный курс CS224R по глубокому обучению с подкреплением (Deep Reinforcement Learning) под руководством ассистента профессора Челси Финн. В вводной лекции весеннего семестра 2025 года рассматриваются ключевые отличия этого направления от классического обучения с учителем, примеры его применения в робототехнике и больших языковых моделях, а также математическая основа моделирования поведения автономных агентов. Данный материал закладывает теоретический и практический фундамент для понимания систем ИИ, способных обучаться на собственном опыте и совершать открытия, выходящие за рамки простого копирования человеческих данных.

🧠 Введение в дисциплину и специфика Deep RL 0:05

Глубокое обучение с подкреплением (Deep RL) ориентировано на решение задач последовательного принятия решений. В отличие от статического анализа данных, здесь система функционирует в динамической среде: она непрерывно получает поток информации, совершает определенное действие, фиксирует изменения, обновляет свои наблюдения и делает следующий шаг.

Программа курса CS224R охватывает широкий спектр подходов и архитектурных решений, направленных на создание по-настоящему автономных агентов. В течение учебного квартала студенты изучат:

Обучение подражанию (Imitation Learning);
Методы RL без использования модели среды (Model-Free) и на основе модели (Model-Based);
Обучение в интерактивном режиме (Online) и на основе фиксированных наборов данных (Offline RL);
Многозадачное (Multitask) и мета-обучение с подкреплением (Meta-RL);
Применение алгоритмов оптимизации поведения для больших языковых моделей (LLM) и физических робототехнических платформ.

Главный акцент в рамках курса сделан на решениях, которые масштабируются и эффективно работают в сочетании с глубокими нейронными сетями. Методы, не предполагающие использование глубоких архитектур, рассматриваться практически не будут, так как они не обеспечивают требуемой производительности в сложных современных задачах.

📊 Фундаментальные отличия RL от обучения с учителем (Supervised Learning) 1:47

Большинство специалистов в области машинного обучения привыкли работать в парадигме обучения с учителем (Supervised Learning), где базовая задача сводится к поиску функции отображения входных данных $X$ в выходные метки $Y$. При этом ключевым статистическим допущением является то, что все точки данных в обучающей выборке распределены независимо и одинаково (IID — Independent and Identically Distributed).

В обучении с подкреплением ситуация кардинально меняется по двум основным причинам:

Отсутствие прямой разметки: Агенту никто не говорит, какое действие является идеальным или правильным для данного входа. Вместо явных ответов система получает косвенную, часто отложенную во времени обратную связь в виде сигналов награды.
Нарушение принципа IID: Данные, которые собирает алгоритм, не поступают из фиксированного распределения. Напротив, распределение данных напрямую зависит от текущей стратегии (политики) самого агента. Если политика меняется, меняется и характер поступающей информации, что создает сложные обратные связи в процессе обучения.

Конечная цель Deep RL — это математическое описание и оптимизация сложного поведения (Behavior). Под поведением здесь понимается широкий спектр задач: от моторного контроля колесных или шагающих роботов до ведения диалога чат-ботом, управления беспилотным автомобилем, навигации веб-агентов в браузере или выстраивания игровых стратегий.

🚀 Почему стоит изучать Deep RL: от философии интеллекта до практической пользы 5:10

По мнению Челси Финн, существует несколько веских причин для глубокого погружения в эту дисциплину, начиная от сугубо прикладных инженерных задач и заканчивая фундаментальными вопросами построения сильного искусственного интеллекта (AGI).

Во-первых, реальный мир требует учета долгосрочных последствий принимаемых решений. Например, алгоритм рекомендаций Spotify, выбирая трек для пользователя, запускает цепочку последствий: повторное включение той же песни сразу после ее окончания будет ошибкой, а удержание пользователя в рамках любимого жанра требует стратегического планирования рекомендаций на несколько шагов вперед.

Во-вторых, существует огромный пласт задач, где прямая супервизия невозможна или неэффективна. При разработке современных ИИ-ассистентов для программирования (таких как Cursor или GitHub Copilot) человек-эксперт не всегда может написать единственно верный эталонный код для обучения модели, но он способен легко оценить предложенный вариант, поставив оценку «хорошо» или «плохо». Обучение на основе подобных недифференцируемых критериев и субъективных оценок — классическая задача для RL.

С философской точки зрения, способность учиться на собственном опыте методом проб и ошибок является фундаментальным свойством любого развитого интеллекта. Исключительно за счет копирования существующих данных (мимикрии) невозможно совершить научный прорыв или найти принципиально новое решение. Инструментарий RL позволяет ИИ выходить за рамки человеческого опыта и совершать самостоятельные открытия.

Наконец, Челси Финн поделилась шутливым, но актуальным аргументом в пользу изучения Deep RL:

«На прошлых выходных я рассказывала другу, что готовлю слайды о том, зачем нужно изучать обучение с подкреплением. Он удивился и сказал: "Зачем тратить на это несколько слайдов? Ответ же очевиден — ради миллиона долларов совокупной компенсации в OpenAI!"»

🤖 Сферы применения: от танцующих роботов до проектирования чипов 7:46

Глубокое обучение с подкреплением давно вышло за рамки чисто академических экспериментов и успешно внедряется в коммерческие высокопроизводительные системы. Лектор выделила несколько ярких технологических прорывов последних лет.

В области робототехники алгоритмы Deep RL позволяют обучать четвероногих роботов-собак и антропоморфных гуманоидов сложным динамическим движениям и танцам. Обучение происходит в симуляторах, после чего полученные политики успешно переносятся на физические устройства в реальном мире (процесс Sim-to-Real). В задачах манипуляции манипуляторы, обученные с привлечением методов RL и Imitation Learning, способны автономно сортировать и складывать одежду или выполнять тонкую работу, например, складывать простые фигурки оригами.

В игровой индустрии исторической вехой стала победа системы AlphaGo от компании DeepMind над чемпионом мира Ли Седолем в сложнейшей настольной игре Го. Продемонстрировав феноменальный уровень игры, ИИ совершил знаменитый «ход № 37», который ввел в замешательство экспертов, поскольку противоречил тысячелетней человеческой традиции ведения партии. Это доказало способность алгоритмов RL находить скрытые неочевидные стратегии, что в перспективе может помочь ученым в поиске лекарств от неизлечимых болезней и проведении научных экспериментов.

Современные ИИ-продукты также опираются на этот стек технологий:

Большие языковые модели (LLM): Практически все передовые модели используют методы RL (в частности, RLHF — обучение с подкреплением на основе обратной связи от человека) на этапе постобучения (Post-training) для выравнивания ответов и развития навыков логического рассуждения.
Управление трафиком: Ведутся исследования по интеграции беспилотных автомобилей в общий поток машин под управлением людей для радикального повышения пропускной способности дорог.
Генеративные модели текста и изображений: С помощью RL модели обучают точнее следовать сложным текстовым запросам (промптам). В качестве примера приводится генерация дельфина, едущего на велосипеде: базовая модель часто не справляется с логикой компоновки кадра, но после RL-оптимизации качество и точность генерации существенно возрастают.
Проектирование микросхем: Компания Google использовала алгоритмы RL для компоновки и дизайна топологии своих тензорных процессоров (TPU), применяемых в промышленном производстве.

🔄 Личный опыт и открытые проблемы исследований 11:22

Челси Финн поделилась историей из своей академической практики. В начале своей аспирантуры она работала в лаборатории, исследовавшей применимость RL в робототехнике. На её глазах робот без участия человека, исключительно за счет практики и физического взаимодействия, постепенно научился собирать детали игрушечного самолета. Агент начинал с хаотичных движений, но со временем траектории становились все более точными и уверенными.

Однако у той системы было фундаментальное ограничение — у робота были «закрыты глаза», он не использовал визуальную информацию от камер, полагаясь только на показания датчиков углов в сочленениях. В рамках последующего совместного проекта Финн интегрировала компьютерное зрение, что позволило роботу успешно справляться с задачей попадания элемента в детский сортер (Shape Sorting Cube) с точностью до 95–100%.

Несмотря на очевидный прогресс, в области Deep RL остается множество нерешенных исследовательских вызовов:

Формирование функции награды: Как научить робота самостоятельно и безошибочно определять, что именно является хорошим результатом для сложной задачи?
Генерализация: Как заставить агента успешно переносить навыки из одной геометрии среды в другую?
Масштаб и разнообразие данных: Как эффективно использовать огромные разнородные датасеты для одновременного обучения множеству долгосрочных задач (например, приготовлению пищи или решению сложных математических уравнений)?
Полная автономность обучения: Физические роботы часто не умеют самостоятельно возвращать среду в исходное состояние (делать «сброс»).

Для иллюстрации последней проблемы лектор продемонстрировала видеозапись, где робот учится забивать хоккейную шайбу в ворота. Каждый раз, когда шайба улетала, ассистент по имени Иван был вынужден бегать за ней и возвращать на место. В итоге Иван проделывал колоссальный объем физической работы, что полностью лишало процесс автономности и делало масштабный сбор данных непрактичным. Именно поэтому актуальным направлением исследований является так называемое Reset-Free RL (обучение без принудительного сброса среды).

📐 Математическая формализация: состояния, наблюдения и марковское свойство 16:23

Для превращения непрерывного потока жизненного опыта агента в строгие данные, пригодные для машинного обучения, в RL используется строгая математическая нотация.

Центральным понятием является состояние мира, обозначаемое символом $s$. В робототехнике полное состояние включает в себя трехмерные координаты манипулятора, положение целевого объекта, угловые скорости и крутящие моменты. Однако в реальности агент чаще всего не имеет доступа ко всей полноте информации о физическом мире и оперирует частичными наблюдениями ($o$).

Разница между состоянием ($s$) и наблюдением ($o$) наглядно видна на примере чат-ботов. Последнее текстовое сообщение от пользователя — это лишь единичное наблюдение $o_t$. Оно не содержит в себе контекста, необходимого для генерации корректного ответа. Чтобы принять верное решение, модели требуется история (предыстория) прошлых наблюдений.

Последовательность действий агента обозначается как $a$. Процесс взаимодействия со средой на протяжении одного эпизода формирует траекторию $\tau$ (или rollout), которая представляет собой упорядоченный набор состояний и действий:

$$\tau = (s_1, a_1, s_2, a_2, \dots, s_T, a_T)$$

Оценка качества действий выполняется с помощью функции награды $R(s, a)$, возвращающей скалярное значение. В большинстве архитектур среда эволюционирует в соответствии с функцией динамики (Dynamics Function), задающей распределение вероятностей следующего состояния $P(s_{t+1} | s_t, a_t)$.

Фундаментальным допущением классического RL является Марковское свойство (Markov Property). Оно постулирует, что будущее состояние системы $s_{t+1}$ зависит исключительно от текущего состояния $s_t$ и предпринятого действия $a_t$, и абсолютно не зависит от траектории, которая привела систему в эту точку:

$$P(s_{t+1} | s_t, a_t, s_{t-1}, a_{t-1}, \dots, s_1, a_1) = P(s_{t+1} | s_t, a_t)$$

Это свойство позволяет декомпозировать сложнейшие задачи на изолированные временные шаги. Если же мы имеем дело с частично наблюдаемой средой (где доступны только $o_t$), марковское свойство нарушается, и для предсказания будущего приходится использовать специализированные последовательностные модели (например, трансформеры), способные удерживать историю в памяти.

📝 Практические примеры формулирования задач: робототехника и чат-боты 26:42

В ходе лекции были детально разобраны два контрастных примера формализации прикладных задач в терминах обучения с подкреплением.

Сценарий 1: Складывание полотенца роботом-манипулятором

Состояние ($s$): RGB-изображения высокого разрешения с внешних и встроенных камер, точные пространственные координаты каждого шарнира роборуки, а также векторы их текущих скоростей.
Действие ($a$): Команда на изменение целевого угла в сочленении (например, поворот сустава с $90^\circ$ до $92^\circ$).
Траектория ($\tau$): Временной ряд, жестко дискретизированный по частоте. Обычно управление физическим железом происходит на частоте $20$ Гц ($20$ раз в секунду). Соответственно, траектория состоит из 20 кадров видео и 20 векторов команд на каждую секунду записи.
Награда ($R$): Строгая бинарная (разреженная) величина — единица ($1$), если полотенце успешно зафиксировано на крючке в финальном состоянии $s$, и ноль ($0$) во всех остальных промежуточных состояниях.

Сценарий 2: Диалоговый ИИ (Чат-бот)

Наблюдение ($o$): Текстовая строка, содержащая реплику, отправленную пользователем в текущий момент времени.
Действие ($a$): Ответное текстовое сообщение (слово, предложение или развернутый параграф текста).
Траектория ($\tau$): Лог (история) ведения диалога. Время здесь не привязано к фиксированной герцовке, как у роботов. Шаг времени ($t \to t+1$) происходит дискретно — в момент совершения ответа пользователем или ботом.
Награда ($R$): Пользовательский фидбек. Например: $+1$ за нажатие кнопки «палец вверх» (upvote), $-10$ за «палец вниз» (downvote), и $0$, если пользователь проигнорировал оценку ответа.

📈 Стратегия поведения (Policy) и целевая функция оптимизации 33:41

Стратегия, по которой агент выбирает свои действия, называется политикой и обозначается как $\pi$. Математически это распределение вероятностей действий при условии заданного состояния или наблюдения: $\pi(a|s)$. На практике политика представляет собой глубокую нейросеть (сверточную, трансформер или полносвязный MLP) с обучаемыми параметрами $\theta$. Процесс генерации траектории при работе нейросети в среде называется «роллаутом» (rollout) или эпизодом.

В отличие от обучения с учителем, максимизирующего точность предсказания на конкретном объекте, глобальная цель RL — максимизация суммарной ожидаемой награды на всей траектории.

Из-за того, что окружающий мир стохастичен (динамика среды $P(s_{t+1}|s_t,a_t)$ содержит элемент случайности) и сама политика агента $\pi_\theta(a|s)$ может быть вероятностной, итоговая сумма наград для одной и той же политики будет отличаться от запуска к запуску. Таким образом, распределение вероятностей траектории раскрывается через произведение индивидуальных переходов:

$$P(\tau) = P(s_1) \prod_{t=1}^T \pi_\theta(a_t | s_t) P(s_{t+1} | s_t, a_t)$$

Математическая цель обучения с подкреплением формулируется как поиск таких параметров $\theta^*$, которые максимизируют математическое ожидание накопленной награды:

$$\theta^* = \arg\max_\theta \mathbb{E}{\tau \sim P\theta(\tau)} \left[ \sum_{t=1}^T R(s_t, a_t) \right]$$

Для балансировки значимости сиюминутных и отложенных наград вводится коэффициент дисконтирования $\gamma \in (0, 1]$. Целевая функция приобретает вид максимизации суммы $\sum \gamma^t R(s_t, a_t)$. Если задать низкое значение $\gamma$, агент станет «жадным» (близоруким), заботясь только о немедленной выгоде. Близкое к единице значение заставляет систему инвестировать ресурсы в долгосрочные стратегии, результаты которых проявятся лишь в самом конце эпизода.

Использование стохастических (вероятностных) политик вместо строго детерминированных критически важно по двум причинам:

Обеспечение исследования (Exploration): Чтобы найти глобально оптимальную стратегию (например, играя в теннис), агент должен постоянно пробовать новые неожиданные удары и финты, а не раз за разом повторять одно и то же изученное движение.
Моделирование человеческих демонстраций: Люди вариативны в своем поведении. Стохастическая природа нейросети позволяет адекватно аппроксимировать и усреднять различные подходы человека к решению одной и той же задачи.

🔮 Функции ценности и классификация алгоритмов RL 48:15

Чтобы алгоритм мог эффективно корректировать параметры нейросети, ему необходимо понимать, насколько перспективно текущее состояние. Для этого вводятся функции ценности:

$V$-функция (Value Function) — $V^\pi(s)$: Отражает ожидаемую сумму будущих дисконтированных наград, если агент стартует из состояния $s$ и далее строго следует текущей политике $\pi$.
$Q$-функция (Quality Function) — $Q^\pi(s, a)$: Показывает ожидаемую ценность, если агент находится в состоянии $s$, принудительно совершает действие $a$ (которое может не совпадать с мнением его текущей политики), и лишь затем переходит на следование стратегии $\pi$.

Разнообразие существующих алгоритмов в Deep RL продиктовано тем, что разные подходы делают полярные допущения и ищут компромиссы в зависимости от специфики прикладной задачи. В рамках курса будут детально изучены следующие фундаментальные семейства алгоритмов:

Imitation Learning (Обучение по демонстрациям): Прямое копирование поведения эксперта-человека без явного вычисления наград.
Policy Gradients (Градиенты политики): Прямое дифференцирование целевой функции по параметрам $\theta$ на основе собранного опыта.
Actor-Critic (Актер-Критик): Комбинированные методы, где «Актер» (политика) совершает действия, а «Критик» ($V$ или $Q$-функция) оценивает их успешность и помогает снизить дисперсию градиента.
Value-Based Methods (Методы на основе ценности): Алгоритмы (например, Q-learning), которые сначала находят оптимальную функцию ценности $Q^*$, а затем выводят из нее лучшую политику.
Model-Based Methods (Методы на основе моделей): Подходы, при которых ИИ сначала строит внутреннюю модель физики и динамики мира (пытается предсказать будущее), а затем использует её для планирования шагов или виртуального обучения внутри собственного «воображения».

Выбор конкретного семейства зависит от стоимости сбора данных (симуляция против реального физического контакта), размерности и непрерывности пространства действий, а также требований к стабильности схождения градиентных методов. Комбинация этих элементов формирует математическую базу для марковских процессов принятия решений (MDP) и их частично наблюдаемых аналогов (POMDP), которые станут ключевыми объектами изучения на последующих лекциях.