Профессор Челси Финн об основах глубокого обучения с подкреплением в Стэнфорде

Stanford Online 81,7 тыс. 52 мин 12 мин 08.12.2025
Главное

Стэнфордский университет представил обновленный курс CS224R по глубокому обучению с подкреплением (Deep Reinforcement Learning) под руководством ассистента профессора Челси Финн. В вводной лекции весеннего семестра 2025 года рассматриваются ключевые отличия этого направления от классического обучения с учителем, примеры его применения в робототехнике и больших языковых моделях, а также математическая основа моделирования поведения автономных агентов. Данный материал закладывает теоретический и практический фундамент для понимания систем ИИ, способных обучаться на собственном опыте и совершать открытия, выходящие за рамки простого копирования человеческих данных.

🧠 Введение в дисциплину и специфика Deep RL 0:05

Глубокое обучение с подкреплением (Deep RL) ориентировано на решение задач последовательного принятия решений. В отличие от статического анализа данных, здесь система функционирует в динамической среде: она непрерывно получает поток информации, совершает определенное действие, фиксирует изменения, обновляет свои наблюдения и делает следующий шаг.

Программа курса CS224R охватывает широкий спектр подходов и архитектурных решений, направленных на создание по-настоящему автономных агентов. В течение учебного квартала студенты изучат:

Главный акцент в рамках курса сделан на решениях, которые масштабируются и эффективно работают в сочетании с глубокими нейронными сетями. Методы, не предполагающие использование глубоких архитектур, рассматриваться практически не будут, так как они не обеспечивают требуемой производительности в сложных современных задачах.

📊 Фундаментальные отличия RL от обучения с учителем (Supervised Learning) 1:47

Большинство специалистов в области машинного обучения привыкли работать в парадигме обучения с учителем (Supervised Learning), где базовая задача сводится к поиску функции отображения входных данных $X$ в выходные метки $Y$. При этом ключевым статистическим допущением является то, что все точки данных в обучающей выборке распределены независимо и одинаково (IID — Independent and Identically Distributed).

В обучении с подкреплением ситуация кардинально меняется по двум основным причинам:

  1. Отсутствие прямой разметки: Агенту никто не говорит, какое действие является идеальным или правильным для данного входа. Вместо явных ответов система получает косвенную, часто отложенную во времени обратную связь в виде сигналов награды.
  2. Нарушение принципа IID: Данные, которые собирает алгоритм, не поступают из фиксированного распределения. Напротив, распределение данных напрямую зависит от текущей стратегии (политики) самого агента. Если политика меняется, меняется и характер поступающей информации, что создает сложные обратные связи в процессе обучения.

Конечная цель Deep RL — это математическое описание и оптимизация сложного поведения (Behavior). Под поведением здесь понимается широкий спектр задач: от моторного контроля колесных или шагающих роботов до ведения диалога чат-ботом, управления беспилотным автомобилем, навигации веб-агентов в браузере или выстраивания игровых стратегий.

🚀 Почему стоит изучать Deep RL: от философии интеллекта до практической пользы 5:10

По мнению Челси Финн, существует несколько веских причин для глубокого погружения в эту дисциплину, начиная от сугубо прикладных инженерных задач и заканчивая фундаментальными вопросами построения сильного искусственного интеллекта (AGI).

Во-первых, реальный мир требует учета долгосрочных последствий принимаемых решений. Например, алгоритм рекомендаций Spotify, выбирая трек для пользователя, запускает цепочку последствий: повторное включение той же песни сразу после ее окончания будет ошибкой, а удержание пользователя в рамках любимого жанра требует стратегического планирования рекомендаций на несколько шагов вперед.

Во-вторых, существует огромный пласт задач, где прямая супервизия невозможна или неэффективна. При разработке современных ИИ-ассистентов для программирования (таких как Cursor или GitHub Copilot) человек-эксперт не всегда может написать единственно верный эталонный код для обучения модели, но он способен легко оценить предложенный вариант, поставив оценку «хорошо» или «плохо». Обучение на основе подобных недифференцируемых критериев и субъективных оценок — классическая задача для RL.

С философской точки зрения, способность учиться на собственном опыте методом проб и ошибок является фундаментальным свойством любого развитого интеллекта. Исключительно за счет копирования существующих данных (мимикрии) невозможно совершить научный прорыв или найти принципиально новое решение. Инструментарий RL позволяет ИИ выходить за рамки человеческого опыта и совершать самостоятельные открытия.

Наконец, Челси Финн поделилась шутливым, но актуальным аргументом в пользу изучения Deep RL:

«На прошлых выходных я рассказывала другу, что готовлю слайды о том, зачем нужно изучать обучение с подкреплением. Он удивился и сказал: "Зачем тратить на это несколько слайдов? Ответ же очевиден — ради миллиона долларов совокупной компенсации в OpenAI!"»

🤖 Сферы применения: от танцующих роботов до проектирования чипов 7:46

Глубокое обучение с подкреплением давно вышло за рамки чисто академических экспериментов и успешно внедряется в коммерческие высокопроизводительные системы. Лектор выделила несколько ярких технологических прорывов последних лет.

В области робототехники алгоритмы Deep RL позволяют обучать четвероногих роботов-собак и антропоморфных гуманоидов сложным динамическим движениям и танцам. Обучение происходит в симуляторах, после чего полученные политики успешно переносятся на физические устройства в реальном мире (процесс Sim-to-Real). В задачах манипуляции манипуляторы, обученные с привлечением методов RL и Imitation Learning, способны автономно сортировать и складывать одежду или выполнять тонкую работу, например, складывать простые фигурки оригами.

В игровой индустрии исторической вехой стала победа системы AlphaGo от компании DeepMind над чемпионом мира Ли Седолем в сложнейшей настольной игре Го. Продемонстрировав феноменальный уровень игры, ИИ совершил знаменитый «ход № 37», который ввел в замешательство экспертов, поскольку противоречил тысячелетней человеческой традиции ведения партии. Это доказало способность алгоритмов RL находить скрытые неочевидные стратегии, что в перспективе может помочь ученым в поиске лекарств от неизлечимых болезней и проведении научных экспериментов.

Современные ИИ-продукты также опираются на этот стек технологий:

🔄 Личный опыт и открытые проблемы исследований 11:22

Челси Финн поделилась историей из своей академической практики. В начале своей аспирантуры она работала в лаборатории, исследовавшей применимость RL в робототехнике. На её глазах робот без участия человека, исключительно за счет практики и физического взаимодействия, постепенно научился собирать детали игрушечного самолета. Агент начинал с хаотичных движений, но со временем траектории становились все более точными и уверенными.

Однако у той системы было фундаментальное ограничение — у робота были «закрыты глаза», он не использовал визуальную информацию от камер, полагаясь только на показания датчиков углов в сочленениях. В рамках последующего совместного проекта Финн интегрировала компьютерное зрение, что позволило роботу успешно справляться с задачей попадания элемента в детский сортер (Shape Sorting Cube) с точностью до 95–100%.

Несмотря на очевидный прогресс, в области Deep RL остается множество нерешенных исследовательских вызовов:

Для иллюстрации последней проблемы лектор продемонстрировала видеозапись, где робот учится забивать хоккейную шайбу в ворота. Каждый раз, когда шайба улетала, ассистент по имени Иван был вынужден бегать за ней и возвращать на место. В итоге Иван проделывал колоссальный объем физической работы, что полностью лишало процесс автономности и делало масштабный сбор данных непрактичным. Именно поэтому актуальным направлением исследований является так называемое Reset-Free RL (обучение без принудительного сброса среды).

📐 Математическая формализация: состояния, наблюдения и марковское свойство 16:23

Для превращения непрерывного потока жизненного опыта агента в строгие данные, пригодные для машинного обучения, в RL используется строгая математическая нотация.

Центральным понятием является состояние мира, обозначаемое символом $s$. В робототехнике полное состояние включает в себя трехмерные координаты манипулятора, положение целевого объекта, угловые скорости и крутящие моменты. Однако в реальности агент чаще всего не имеет доступа ко всей полноте информации о физическом мире и оперирует частичными наблюдениями ($o$).

Разница между состоянием ($s$) и наблюдением ($o$) наглядно видна на примере чат-ботов. Последнее текстовое сообщение от пользователя — это лишь единичное наблюдение $o_t$. Оно не содержит в себе контекста, необходимого для генерации корректного ответа. Чтобы принять верное решение, модели требуется история (предыстория) прошлых наблюдений.

Последовательность действий агента обозначается как $a$. Процесс взаимодействия со средой на протяжении одного эпизода формирует траекторию $\tau$ (или rollout), которая представляет собой упорядоченный набор состояний и действий:

$$\tau = (s_1, a_1, s_2, a_2, \dots, s_T, a_T)$$

Оценка качества действий выполняется с помощью функции награды $R(s, a)$, возвращающей скалярное значение. В большинстве архитектур среда эволюционирует в соответствии с функцией динамики (Dynamics Function), задающей распределение вероятностей следующего состояния $P(s_{t+1} | s_t, a_t)$.

Фундаментальным допущением классического RL является Марковское свойство (Markov Property). Оно постулирует, что будущее состояние системы $s_{t+1}$ зависит исключительно от текущего состояния $s_t$ и предпринятого действия $a_t$, и абсолютно не зависит от траектории, которая привела систему в эту точку:

$$P(s_{t+1} | s_t, a_t, s_{t-1}, a_{t-1}, \dots, s_1, a_1) = P(s_{t+1} | s_t, a_t)$$

Это свойство позволяет декомпозировать сложнейшие задачи на изолированные временные шаги. Если же мы имеем дело с частично наблюдаемой средой (где доступны только $o_t$), марковское свойство нарушается, и для предсказания будущего приходится использовать специализированные последовательностные модели (например, трансформеры), способные удерживать историю в памяти.

📝 Практические примеры формулирования задач: робототехника и чат-боты 26:42

В ходе лекции были детально разобраны два контрастных примера формализации прикладных задач в терминах обучения с подкреплением.

Сценарий 1: Складывание полотенца роботом-манипулятором

Сценарий 2: Диалоговый ИИ (Чат-бот)

📈 Стратегия поведения (Policy) и целевая функция оптимизации 33:41

Стратегия, по которой агент выбирает свои действия, называется политикой и обозначается как $\pi$. Математически это распределение вероятностей действий при условии заданного состояния или наблюдения: $\pi(a|s)$. На практике политика представляет собой глубокую нейросеть (сверточную, трансформер или полносвязный MLP) с обучаемыми параметрами $\theta$. Процесс генерации траектории при работе нейросети в среде называется «роллаутом» (rollout) или эпизодом.

В отличие от обучения с учителем, максимизирующего точность предсказания на конкретном объекте, глобальная цель RL — максимизация суммарной ожидаемой награды на всей траектории.

Из-за того, что окружающий мир стохастичен (динамика среды $P(s_{t+1}|s_t,a_t)$ содержит элемент случайности) и сама политика агента $\pi_\theta(a|s)$ может быть вероятностной, итоговая сумма наград для одной и той же политики будет отличаться от запуска к запуску. Таким образом, распределение вероятностей траектории раскрывается через произведение индивидуальных переходов:

$$P(\tau) = P(s_1) \prod_{t=1}^T \pi_\theta(a_t | s_t) P(s_{t+1} | s_t, a_t)$$

Математическая цель обучения с подкреплением формулируется как поиск таких параметров $\theta^*$, которые максимизируют математическое ожидание накопленной награды:

$$\theta^* = \arg\max_\theta \mathbb{E}{\tau \sim P\theta(\tau)} \left[ \sum_{t=1}^T R(s_t, a_t) \right]$$

Для балансировки значимости сиюминутных и отложенных наград вводится коэффициент дисконтирования $\gamma \in (0, 1]$. Целевая функция приобретает вид максимизации суммы $\sum \gamma^t R(s_t, a_t)$. Если задать низкое значение $\gamma$, агент станет «жадным» (близоруким), заботясь только о немедленной выгоде. Близкое к единице значение заставляет систему инвестировать ресурсы в долгосрочные стратегии, результаты которых проявятся лишь в самом конце эпизода.

Использование стохастических (вероятностных) политик вместо строго детерминированных критически важно по двум причинам:

🔮 Функции ценности и классификация алгоритмов RL 48:15

Чтобы алгоритм мог эффективно корректировать параметры нейросети, ему необходимо понимать, насколько перспективно текущее состояние. Для этого вводятся функции ценности:

  1. $V$-функция (Value Function) — $V^\pi(s)$: Отражает ожидаемую сумму будущих дисконтированных наград, если агент стартует из состояния $s$ и далее строго следует текущей политике $\pi$.
  2. $Q$-функция (Quality Function) — $Q^\pi(s, a)$: Показывает ожидаемую ценность, если агент находится в состоянии $s$, принудительно совершает действие $a$ (которое может не совпадать с мнением его текущей политики), и лишь затем переходит на следование стратегии $\pi$.

Разнообразие существующих алгоритмов в Deep RL продиктовано тем, что разные подходы делают полярные допущения и ищут компромиссы в зависимости от специфики прикладной задачи. В рамках курса будут детально изучены следующие фундаментальные семейства алгоритмов:

Выбор конкретного семейства зависит от стоимости сбора данных (симуляция против реального физического контакта), размерности и непрерывности пространства действий, а также требований к стабильности схождения градиентных методов. Комбинация этих элементов формирует математическую базу для марковских процессов принятия решений (MDP) и их частично наблюдаемых аналогов (POMDP), которые станут ключевыми объектами изучения на последующих лекциях.

💬 Цитаты

«Обучение на собственном опыте кажется чем-то фундаментальным для интеллекта.»

Челси Финн 06:52

«В отличие от обучения с учителем, здесь мы не получаем прямых ответов, а учимся на основе косвенной обратной связи.»

Челси Финн 03:12
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Политика (Policy)
Функция или нейросеть, отображающая текущее состояние среды в распределение вероятностей действий агента.
Траектория (Trajectory)
Последовательность чередующихся состояний среды и действий, совершенных агентом за один рабочий эпизод.
Марковское свойство (Markov Property)
Условие, при котором будущее состояние среды зависит только от текущего состояния и действия, и не зависит от предыстории.
Функция ценности (Value Function)
Математическое ожидание суммарной будущей дисконтированной награды, которую агент получит, начиная из данного состояния.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Челси Финн Stanford University Deep Reinforcement Learning Марковский процесс