Лекция в Стэнфорде: развитие интеллекта роботов через RL

Stanford Online 10,3 тыс. 49 мин 10 мин 08.12.2025
Главное

В рамках открытой лекции Стэнфордского университета (Stanford University), представленной на платформе Stanford Online для курса Stanford CS224R, ведущий эксперт подробно разобрал современные подходы к развитию интеллекта роботов с помощью глубокого обучения с подкреплением (Reinforcement Learning, RL). В центре дискуссии — преодоление барьера между виртуальной симуляцией и реальным миром (sim-to-real), успешное применение технологии быстрой моторной адаптации и долгосрочные перспективы создания универсальных автономных агентов. Анализ представленных методик позволяет изнутри взглянуть на эволюцию робототехнических платформ, включая антропоморфные проекты компании Tesla.

⚖️ Обучение с подкреплением против имитационного обучения: поиск эффективных подходов 0:05

Сравнение имитационного обучения (Imitation Learning) и обучения с подкреплением позволяет четко разграничить сферы их эффективного применения. Анализ затрагивает исключительно те архитектуры, которые доказали свою полную работоспособность на практике при решении экстремально сложных задач.

Имитационное обучение сегодня выступает базой для предобучения визуально-языковых моделей (VLM), алгоритмов генерации видео и систем сегментации изображений. Его ключевая особенность заключается в тотальной опоре на сторонние данные (off-policy data). Эти датасеты собираются или генерируются людьми независимо от той финальной стратегии, которая подлежит улучшению. В результате такой подход позволяет создавать масштабные модели-универсалы (generalists), способные выполнять широкий спектр разнородных задач.

В свою очередь, обучение с подкреплением демонстрирует наилучшие результаты в игровых средах (например, в игре Го), механизмах логических рассуждений больших языковых моделей и робототехнике. Успешное RL-обучение, как правило, является интерактивным (on-policy), когда улучшаемая стратегия самостоятельно генерирует распределение данных в процессе взаимодействия со средой.

При этом любая точка данных, полученная во время развертывания стратегии, идет в дело. Модель извлекает опыт как из позитивных, так и из негативных сценариев, что обеспечивает ювелирную точность поведения и позволяет создавать высокоэффективные специализированные системы.

Тем не менее, эти парадигмы не исключают друг друга. На практике имитационное обучение часто применяется для «горячего старта» (warm start) систем, которые затем дообучаются с помощью RL, как это было реализовано в AlphaGo или механизмах логического вывода современных нейросетей.

🎯 Слагаемые успеха: почему ИИ достигает сверхчеловеческих результатов 3:11

Качественный прорыв, обеспеченный обучением с подкреплением, наглядно иллюстрируют три домена: победа AlphaGo над лучшим игроком в мире за счет обнаружения инновационных стратегий, сложные логические рассуждения LLM на длинных горизонтах задач и высокая точность движений в робототехнике.

По мнению спикера, успех алгоритмов RL в столь разных областях базируется на двух критически важных компонентах:

Спикер подчеркивает, что несмотря на то, что эти триумфальные результаты разделены интервалами в 7–8 лет, все они опираются на одни и те же базовые ингредиенты.

💻 Симуляция как мост в реальный мир: технология Rapid Motor Adaptation 6:03

Перенос успехов RL в робототехнику долгое время упирался в проблему физического воплощения. Ближайшим приближением к созданию идеальных условий для обучения стала цифровая симуляция, где можно программно рассчитывать вознаграждения и масштабировать прогоны стратегий. Главным вызовом здесь выступает так называемый барьер sim-to-real — перенос обученной в виртуальной среде модели на реальное «железо».

Жизнеспособность этого подхода подтверждают натурные эксперименты, проведенные исследователями в Беркли. Полностью «слепой» четвероногий робот под управлением нейросети успешно преодолевал завалы из камней, скользкую траву, грязь, песок и незнакомые лестницы. При столкновении с препятствиями робот спотыкался, но мгновенно корректировал движения и продолжал идти без падений.

Важнейший технологический факт: на всех типах рельефа использовалась одна и та же нейросеть с абсолютно одинаковыми весами, развернутая в реальном мире методом zero-shot, то есть без какой-либо предварительной настройки под конкретную местность. Эта работа была опубликована на конференции RSS в 2021 году.

Процесс обучения базовой стратегии в симуляции строится на рандомизации физических параметров среды: массы робота, трения поверхностей и других факторов. Модель получает доступ ко всему спектру этих параметров, сжатых в латентный вектор внешних характеристик (extrinsics). Функция вознаграждения оптимизирует удержание целевой скорости, минимизируя при этом затраты энергии и силу удара о землю. Вся система обучается end-to-end с помощью алгоритма PPO, требуя около 1 миллиарда симуляционных шагов.

Разработчики используют комбинацию из 10 различных функций вознаграждения. Они делятся на три группы: спецификация целевой задачи, минимизация энергозатрат и обеспечение стабильности для предотвращения повреждений реального оборудования.

🧠 Онлайн-адаптация за доли секунды: как робот вычисляет среду 10:59

В реальном мире вектор внешних характеристик среды невозможно измерить напрямую. Чтобы решить эту проблему, была разработана технология Rapid Motor Adaptation (RMA), которая оценивает параметры окружения прямо во время движения за доли секунды. В качестве входного сигнала используется история проприоцептивных наблюдений — сопоставление поданных команд и их фактического выполнения приводами.

Если робот наступает на скользкую поверхность и его нога проскальзывает сильнее ожидаемого, возникшее расхождение в сигналах позволяет алгоритму мгновенно понять, что физика среды изменилась. Обучение этого адаптационного модуля происходит в симуляции по методу DAgger (Dataset Aggregation): «студент» обучается на основе истории наблюдений, а «учитель», имеющий доступ к точным физическим параметрам среды, выступает в роли супервизора.

При развертывании на роботе базовая стратегия работает с частотой 100 Гц, тогда как модуль адаптации обновляет вектор внешних характеристик на частоте 10 Гц из-за ограничений бортового вычислителя. Спикер отмечает, что такой разрыв частот не закладывался при обучении, однако на практике он не приводит к снижению эффективности.

В ходе испытаний робота помещали на пластиковый тент, залитый оливковым маслом, причем его лапы также были обернуты пластиком. Робот проскальзывал, но удерживал равновесие. При неожиданном сбросе 5-килограммового груза (что составляет почти половину собственного веса робота в 12 кг) система за несколько шагов стабилизировала походку. Робот успешно справлялся с ходьбой по мягкому матрасу, поролону и даже по незакрепленной деревянной доске, которая сдвигалась при каждом шаге.

Если модуль адаптации принудительно отключить и зафиксировать параметры среды, робот быстро теряет стабильность под нагрузкой. Например, при весе в 8 кг без адаптации машина заваливается вперед, поскольку не может скорректировать крутящий момент в передних ногах для обеспечения нужной высоты шага. Графики крутящего момента и походки показывают, что при возникновении аномалии (проскальзывание или падение груза) RMA мгновенно перестраивает профиль усилий приводов, после чего система возвращается к стабильному ритму.

📊 Сравнение с альтернативами и ответы на острые вопросы 18:09

Эффективность архитектуры RMA подтверждается строгим количественным сравнением с классическими подходами:

Отвечая на вопросы аудитории, лектор затронул тему непрерывного самосовершенствования роботов в реальном мире. По его мнению, создание систем, способных бесконечно обучаться онлайн на своих ошибках, до сих пор остается открытой проблемой в науке. В качестве более простого и быстрого решения спикер предлагает расширять контекст нейросети, чтобы в рамках одного сеанса работы робот мог «помнить» свои исправления за целый день.

Также спикер пояснил, почему большинство успешных коммерческих sim-to-real моделей используют только текущее состояние без учета истории. По его оценке, длинная и плотная история в симуляции создает риски «эксплуатации» роботом багов виртуальной физики или структуры наград, что мешает адекватному переносу модели в реальность.

👁️ Интеграция зрения: от слепого хождения к точному планированию 28:56

Несмотря на высокую надежность проприоцептивного хождения, для выполнения сложных задач роботам необходимо компьютерное зрение. Без визуального потока невозможно преодолевать расщелины или прыгать по изолированным точкам. Кроме того, постоянные слепые столкновения со ступенями лестниц быстро разрушают аппаратную часть, поэтому интеграция камер критична для долговечности робота.

Традиционный подход, разделяющий восприятие и контроль через построение карт высот (elevation maps), имеет фундаментальный изъян. Создание точной метрической карты — крайне сложная задача, где данные всегда зашумлены из-за дрейфа датчиков или наличия подвижных объектов. В результате система безвозвратно теряет чистую визуальную информацию еще на этапе картографирования.

В представленной работе (CoRL 2022) авторы напрямую объединили зрение и управление. Небольшой робот, оснащенный фронтальной камерой глубины, успешно преодолевал цепочки отдельно стоящих табуретов с переменными зазорами, каменистые туристические тропы и очень высокие ступени, сопоставимые с его собственным ростом. На крайне скользких рельефах робот мог ошибаться, но каждая последующая попытка поставить лапу выглядела более осознанной благодаря интеграции контекста.

Обучение такой визуально-моторной стратегии разделено на два этапа. На первом этапе робот обучается в симуляции IsaacGym, получая идеальные (незашумленные) данные о высоте рельефа вокруг, что позволяет избежать медленного рендеринга графики. На втором этапе применяется рендеринг глубины, и через метод DAgger обучается компактный кодировщик (depth encoder), имитирующий идеальные подсказки первого этапа. Это ускоряет обучение на порядок и обеспечивает стабильный трансфер модели в реальный мир.

В финальной архитектуре задействованы рекуррентные нейросети (RNN) для удержания временного контекста. Спикер уточняет, что трансформеры для этой задачи не тестировались. Примечательно, что робот сам научился разводить лапы в стороны при подъеме на высокие лестницы, чтобы компенсировать нехватку клиренса.

Такое адаптивное планирование шагов и уникальная походка стали эмерджентным свойством, порожденным поиском RL, без использования предопределенных шаблонов движений. Наглядным подтверждением надежности стал живой демо-показ, где робот продолжал успешно выполнять программу, даже когда у него отвалилась накладка на лапе и он начал сильно хромать.

🤖 Манипуляции, дроны и антропоморфные роботы Tesla 38:26

Описанные принципы онлайн-адаптации через историю наблюдений масштабируются и на другие сложные задачи, включая декстерную (пальцевую) манипуляцию предметами. Одна и та же нейросеть без переобучения способна вращать в ладони объекты с колоссальным разбросом физических свойств: от легкого бумажного полотенца до волана для бадминтона, кубиков, стаканов, шара из льда и киви. Вес предметов варьировался от 5 до 200 граммов, менялись коэффициенты трения и центры масс.

Поскольку точная логика работы скрыта внутри нейросети, авторы выдвинули гипотезу, что история сигналов используется моделью для детекции моментов контакта пальцев с поверхностью. Расхождение между заданной позицией сустава и фактически достигнутой дает системе четкое понимание формы и габаритов объекта, позволяя мгновенно подстраивать усилия. Вживую роборука успешно справлялась даже с такими деформируемыми и незнакомыми предметами, как мягкая апельсиновая кожура и пластиковый адаптер.

Аналогичный подход продемонстрировал высокую эффективность в управлении полетом дронов. Единые веса нейросети смогли адаптироваться к аппаратам разной морфологии: один из дронов был в 4 раза тяжелее другого, а длина его лучей превышала параметры второго в 3 раза. Модель напрямую управляет скоростью вращения каждого пропеллера, быстро компенсируя вобблинг на старте. Беспилотник сохраняет стабильность и позицию в воздухе даже после прямого удара теннисным мячом в один из винтов.

Кульминацией развития этих подходов спикер называет работу над антропоморфными роботами Optimus в компании Tesla. Двуногая система гораздо менее прощающая к ошибкам и требует высокой реактивности. Роботы обучаются в симуляции и переносятся на реальное железо методом zero-shot, демонстрируя уверенную ходьбу по пересеченной местности и автономный танец в реальном времени.

В сфере манипуляций инженеры Tesla используют единую нейросеть, управляемую языковыми командами. Модель обучается на основе эгоцентрических видеозаписей действий человека с добавлением небольшого объема данных от самих роботов, хотя на текущем этапе эти функции еще требуют повышения надежности.

🔮 Будущее робототехники: преодоление «Горького урока» 44:11

Объясняя, почему манипуляция предметами в реальном мире до сих пор отстает по уровню надежности от локомоции, спикер указывает на технологическую неготовность симуляторов. Для ходьбы было достаточно качественной симуляции контактов абсолютно жестких тел. Для бытовых задач необходимо с высокой скоростью обсчитывать деформируемые среды (нарезку овощей, работу с тестом), что пока вычислительно затруднено.

Вторая проблема — сложность программного описания наград. Если для ходьбы достаточно задать целевую скорость, то для кулинарии или уборки приходится вручную прописывать сотни метрик (например, толщину нарезки), которые не масштабируются на другие задачи.

В своих прогнозах на будущее спикер опирается на знаменитый «Горький урок» (The Bitter Lesson) Рича Саттона, согласно которому общие методы, делающие ставку на чистые вычислительные мощности, в конечном счете всегда побеждают с огромным отрывом. По мнению докладчика, с ростом производительности процессоров симуляция неизбежно научится воспроизводить любые сложные физические взаимодействия.

В отношении универсальных моделей вознаграждения спикер настроен сдержанно. Опыт дообучения LLM (включая RLHF и DeepSeek) показывает, что алгоритмы обучения с подкреплением склонны агрессивно эксплуатировать малейшие уязвимости и баги в суждениях нейросетей-критиков, уходя в нежелательные распределения. Тем не менее, лектор сохраняет оптимизм: в самом худшем случае индустрия сможет задействовать масштабируемую разметку наград силами миллиардов людей.

Конечная цель робототехники, по словам спикера, лежит далеко за пределами простого достижения паритета с возможностями человека. Переход на кремниевые компьютеры и приводы с высоким электрическим крутящим моментом позволит роботам выполнять задачи быстрее, точнее и эффективнее, чем это доступно углеродным организмам.

Ярким историческим примером служит AlphaGo, которая благодаря глубокому поиску и RL смогла открыть принципиально новые тактики, расширив представления человечества о возможностях интеллекта.

💬 Цитаты

«Общие методы, использующие вычислительные мощности, в конечном итоге оказываются наиболее эффективными, причем с огромным отрывом.»

Спикер лекции 46:49

«Каждый шаг обучения с подкреплением — это честная игра, где модель извлекает опыт как из позитивных, так и из негативных сценариев.»

Спикер лекции 2:05
👥 Спикер
📚 Упомянутые книги
📖 Термины
RMA (Rapid Motor Adaptation)
Технология быстрой моторной адаптации, позволяющая роботу оценивать физические свойства среды на лету на основе истории движений.
Sim-to-Real
Процесс переноса алгоритмов ИИ и стратегий управления, обученных в виртуальной симуляции, на реальные физические устройства.
PPO (Proximal Policy Optimization)
Популярный алгоритм обучения с подкреплением, используемый для оптимизации стратегий поведения агентов в сложных средах.
DAgger (Dataset Aggregation)
Итеративный алгоритм имитационного обучения, при котором стратегия ученика обучается под постоянным контролем эксперта на новых данных.
On-policy
Подход в обучении с подкреплением, где модель обучается на данных, собранных текущей актуальной версией её собственной стратегии.
📊 Цифры
🗓 Хронология
  1. 2021 год Публикация фундаментальной работы по технологии Rapid Motor Adaptation (RMA) на робототехнической конференции RSS.
  2. 2022 год Выход публикации на конференции CoRL, посвященной успешной интеграции фронтальных камер глубины в контур управления роботом.
⚖️ Другая сторона
Искусственный интеллект Stanford CS224R Reinforcement Learning Rapid Motor Adaptation Tesla Optimus Симуляция sim-to-real