Лекция в Стэнфорде: развитие интеллекта роботов через RL

В рамках открытой лекции Стэнфордского университета (Stanford University), представленной на платформе Stanford Online для курса Stanford CS224R, ведущий эксперт подробно разобрал современные подходы к развитию интеллекта роботов с помощью глубокого обучения с подкреплением (Reinforcement Learning, RL). В центре дискуссии — преодоление барьера между виртуальной симуляцией и реальным миром (sim-to-real), успешное применение технологии быстрой моторной адаптации и долгосрочные перспективы создания универсальных автономных агентов. Анализ представленных методик позволяет изнутри взглянуть на эволюцию робототехнических платформ, включая антропоморфные проекты компании Tesla.

⚖️ Обучение с подкреплением против имитационного обучения: поиск эффективных подходов 0:05

Сравнение имитационного обучения (Imitation Learning) и обучения с подкреплением позволяет четко разграничить сферы их эффективного применения. Анализ затрагивает исключительно те архитектуры, которые доказали свою полную работоспособность на практике при решении экстремально сложных задач.

Имитационное обучение сегодня выступает базой для предобучения визуально-языковых моделей (VLM), алгоритмов генерации видео и систем сегментации изображений. Его ключевая особенность заключается в тотальной опоре на сторонние данные (off-policy data). Эти датасеты собираются или генерируются людьми независимо от той финальной стратегии, которая подлежит улучшению. В результате такой подход позволяет создавать масштабные модели-универсалы (generalists), способные выполнять широкий спектр разнородных задач.

В свою очередь, обучение с подкреплением демонстрирует наилучшие результаты в игровых средах (например, в игре Го), механизмах логических рассуждений больших языковых моделей и робототехнике. Успешное RL-обучение, как правило, является интерактивным (on-policy), когда улучшаемая стратегия самостоятельно генерирует распределение данных в процессе взаимодействия со средой.

При этом любая точка данных, полученная во время развертывания стратегии, идет в дело. Модель извлекает опыт как из позитивных, так и из негативных сценариев, что обеспечивает ювелирную точность поведения и позволяет создавать высокоэффективные специализированные системы.

Тем не менее, эти парадигмы не исключают друг друга. На практике имитационное обучение часто применяется для «горячего старта» (warm start) систем, которые затем дообучаются с помощью RL, как это было реализовано в AlphaGo или механизмах логического вывода современных нейросетей.

🎯 Слагаемые успеха: почему ИИ достигает сверхчеловеческих результатов 3:11

Качественный прорыв, обеспеченный обучением с подкреплением, наглядно иллюстрируют три домена: победа AlphaGo над лучшим игроком в мире за счет обнаружения инновационных стратегий, сложные логические рассуждения LLM на длинных горизонтах задач и высокая точность движений в робототехнике.

По мнению спикера, успех алгоритмов RL в столь разных областях базируется на двух критически важных компонентах:

Четко определенные функции вознаграждения (rewards). В AlphaGo это было разреженное, но абсолютно понятное условие победы в партии. В больших языковых моделях (например, согласно техническому отчету DeepSeek) используются проверяемые правила вознаграждения, которые легко автоматизировать для масштабных вычислений.
Возможность масштабирования вычислений. Знание правил игры позволяет перенести самообучение AlphaGo в симуляцию, где вычислительные ресурсы напрямую конвертируются в новые данные. Аналогично, логические модели разворачиваются в кластерах и оцениваются автоматически, делая сбор данных колоссально масштабируемым.

Спикер подчеркивает, что несмотря на то, что эти триумфальные результаты разделены интервалами в 7–8 лет, все они опираются на одни и те же базовые ингредиенты.

💻 Симуляция как мост в реальный мир: технология Rapid Motor Adaptation 6:03

Перенос успехов RL в робототехнику долгое время упирался в проблему физического воплощения. Ближайшим приближением к созданию идеальных условий для обучения стала цифровая симуляция, где можно программно рассчитывать вознаграждения и масштабировать прогоны стратегий. Главным вызовом здесь выступает так называемый барьер sim-to-real — перенос обученной в виртуальной среде модели на реальное «железо».

Жизнеспособность этого подхода подтверждают натурные эксперименты, проведенные исследователями в Беркли. Полностью «слепой» четвероногий робот под управлением нейросети успешно преодолевал завалы из камней, скользкую траву, грязь, песок и незнакомые лестницы. При столкновении с препятствиями робот спотыкался, но мгновенно корректировал движения и продолжал идти без падений.

Важнейший технологический факт: на всех типах рельефа использовалась одна и та же нейросеть с абсолютно одинаковыми весами, развернутая в реальном мире методом zero-shot, то есть без какой-либо предварительной настройки под конкретную местность. Эта работа была опубликована на конференции RSS в 2021 году.

Процесс обучения базовой стратегии в симуляции строится на рандомизации физических параметров среды: массы робота, трения поверхностей и других факторов. Модель получает доступ ко всему спектру этих параметров, сжатых в латентный вектор внешних характеристик (extrinsics). Функция вознаграждения оптимизирует удержание целевой скорости, минимизируя при этом затраты энергии и силу удара о землю. Вся система обучается end-to-end с помощью алгоритма PPO, требуя около 1 миллиарда симуляционных шагов.

Разработчики используют комбинацию из 10 различных функций вознаграждения. Они делятся на три группы: спецификация целевой задачи, минимизация энергозатрат и обеспечение стабильности для предотвращения повреждений реального оборудования.

🧠 Онлайн-адаптация за доли секунды: как робот вычисляет среду 10:59

В реальном мире вектор внешних характеристик среды невозможно измерить напрямую. Чтобы решить эту проблему, была разработана технология Rapid Motor Adaptation (RMA), которая оценивает параметры окружения прямо во время движения за доли секунды. В качестве входного сигнала используется история проприоцептивных наблюдений — сопоставление поданных команд и их фактического выполнения приводами.

Если робот наступает на скользкую поверхность и его нога проскальзывает сильнее ожидаемого, возникшее расхождение в сигналах позволяет алгоритму мгновенно понять, что физика среды изменилась. Обучение этого адаптационного модуля происходит в симуляции по методу DAgger (Dataset Aggregation): «студент» обучается на основе истории наблюдений, а «учитель», имеющий доступ к точным физическим параметрам среды, выступает в роли супервизора.

При развертывании на роботе базовая стратегия работает с частотой 100 Гц, тогда как модуль адаптации обновляет вектор внешних характеристик на частоте 10 Гц из-за ограничений бортового вычислителя. Спикер отмечает, что такой разрыв частот не закладывался при обучении, однако на практике он не приводит к снижению эффективности.

В ходе испытаний робота помещали на пластиковый тент, залитый оливковым маслом, причем его лапы также были обернуты пластиком. Робот проскальзывал, но удерживал равновесие. При неожиданном сбросе 5-килограммового груза (что составляет почти половину собственного веса робота в 12 кг) система за несколько шагов стабилизировала походку. Робот успешно справлялся с ходьбой по мягкому матрасу, поролону и даже по незакрепленной деревянной доске, которая сдвигалась при каждом шаге.

Если модуль адаптации принудительно отключить и зафиксировать параметры среды, робот быстро теряет стабильность под нагрузкой. Например, при весе в 8 кг без адаптации машина заваливается вперед, поскольку не может скорректировать крутящий момент в передних ногах для обеспечения нужной высоты шага. Графики крутящего момента и походки показывают, что при возникновении аномалии (проскальзывание или падение груза) RMA мгновенно перестраивает профиль усилий приводов, после чего система возвращается к стабильному ритму.

📊 Сравнение с альтернативами и ответы на острые вопросы 18:09

Эффективность архитектуры RMA подтверждается строгим количественным сравнением с классическими подходами:

Чистая устойчивость (Robust baseline). Стратегия, обученная с помощью простой рандомизации без адаптации, демонстрирует более низкий процент успеха, действует избыточно агрессивно, расходует больше крутящего момента и подвержена сильной тряске (jerk).
Идентификация системы (System Identification / SysID). Попытка напрямую предсказывать точные значения трения или массы вместо сжатого латентного вектора снижает общую стабильность робота, уступая по показателям даже простому «устойчивому» методу.
Тонкая настройка при развертывании (Inference fine-tuning). Дообучение модели в реальном времени требует долгих прогонов, тогда как RMA реализует обучение «в контексте» (in-context learning) за один прямой проход нейросети.

Отвечая на вопросы аудитории, лектор затронул тему непрерывного самосовершенствования роботов в реальном мире. По его мнению, создание систем, способных бесконечно обучаться онлайн на своих ошибках, до сих пор остается открытой проблемой в науке. В качестве более простого и быстрого решения спикер предлагает расширять контекст нейросети, чтобы в рамках одного сеанса работы робот мог «помнить» свои исправления за целый день.

Также спикер пояснил, почему большинство успешных коммерческих sim-to-real моделей используют только текущее состояние без учета истории. По его оценке, длинная и плотная история в симуляции создает риски «эксплуатации» роботом багов виртуальной физики или структуры наград, что мешает адекватному переносу модели в реальность.

👁️ Интеграция зрения: от слепого хождения к точному планированию 28:56

Несмотря на высокую надежность проприоцептивного хождения, для выполнения сложных задач роботам необходимо компьютерное зрение. Без визуального потока невозможно преодолевать расщелины или прыгать по изолированным точкам. Кроме того, постоянные слепые столкновения со ступенями лестниц быстро разрушают аппаратную часть, поэтому интеграция камер критична для долговечности робота.

Традиционный подход, разделяющий восприятие и контроль через построение карт высот (elevation maps), имеет фундаментальный изъян. Создание точной метрической карты — крайне сложная задача, где данные всегда зашумлены из-за дрейфа датчиков или наличия подвижных объектов. В результате система безвозвратно теряет чистую визуальную информацию еще на этапе картографирования.

В представленной работе (CoRL 2022) авторы напрямую объединили зрение и управление. Небольшой робот, оснащенный фронтальной камерой глубины, успешно преодолевал цепочки отдельно стоящих табуретов с переменными зазорами, каменистые туристические тропы и очень высокие ступени, сопоставимые с его собственным ростом. На крайне скользких рельефах робот мог ошибаться, но каждая последующая попытка поставить лапу выглядела более осознанной благодаря интеграции контекста.

Обучение такой визуально-моторной стратегии разделено на два этапа. На первом этапе робот обучается в симуляции IsaacGym, получая идеальные (незашумленные) данные о высоте рельефа вокруг, что позволяет избежать медленного рендеринга графики. На втором этапе применяется рендеринг глубины, и через метод DAgger обучается компактный кодировщик (depth encoder), имитирующий идеальные подсказки первого этапа. Это ускоряет обучение на порядок и обеспечивает стабильный трансфер модели в реальный мир.

В финальной архитектуре задействованы рекуррентные нейросети (RNN) для удержания временного контекста. Спикер уточняет, что трансформеры для этой задачи не тестировались. Примечательно, что робот сам научился разводить лапы в стороны при подъеме на высокие лестницы, чтобы компенсировать нехватку клиренса.

Такое адаптивное планирование шагов и уникальная походка стали эмерджентным свойством, порожденным поиском RL, без использования предопределенных шаблонов движений. Наглядным подтверждением надежности стал живой демо-показ, где робот продолжал успешно выполнять программу, даже когда у него отвалилась накладка на лапе и он начал сильно хромать.

🤖 Манипуляции, дроны и антропоморфные роботы Tesla 38:26

Описанные принципы онлайн-адаптации через историю наблюдений масштабируются и на другие сложные задачи, включая декстерную (пальцевую) манипуляцию предметами. Одна и та же нейросеть без переобучения способна вращать в ладони объекты с колоссальным разбросом физических свойств: от легкого бумажного полотенца до волана для бадминтона, кубиков, стаканов, шара из льда и киви. Вес предметов варьировался от 5 до 200 граммов, менялись коэффициенты трения и центры масс.

Поскольку точная логика работы скрыта внутри нейросети, авторы выдвинули гипотезу, что история сигналов используется моделью для детекции моментов контакта пальцев с поверхностью. Расхождение между заданной позицией сустава и фактически достигнутой дает системе четкое понимание формы и габаритов объекта, позволяя мгновенно подстраивать усилия. Вживую роборука успешно справлялась даже с такими деформируемыми и незнакомыми предметами, как мягкая апельсиновая кожура и пластиковый адаптер.

Аналогичный подход продемонстрировал высокую эффективность в управлении полетом дронов. Единые веса нейросети смогли адаптироваться к аппаратам разной морфологии: один из дронов был в 4 раза тяжелее другого, а длина его лучей превышала параметры второго в 3 раза. Модель напрямую управляет скоростью вращения каждого пропеллера, быстро компенсируя вобблинг на старте. Беспилотник сохраняет стабильность и позицию в воздухе даже после прямого удара теннисным мячом в один из винтов.

Кульминацией развития этих подходов спикер называет работу над антропоморфными роботами Optimus в компании Tesla. Двуногая система гораздо менее прощающая к ошибкам и требует высокой реактивности. Роботы обучаются в симуляции и переносятся на реальное железо методом zero-shot, демонстрируя уверенную ходьбу по пересеченной местности и автономный танец в реальном времени.

В сфере манипуляций инженеры Tesla используют единую нейросеть, управляемую языковыми командами. Модель обучается на основе эгоцентрических видеозаписей действий человека с добавлением небольшого объема данных от самих роботов, хотя на текущем этапе эти функции еще требуют повышения надежности.

🔮 Будущее робототехники: преодоление «Горького урока» 44:11

Объясняя, почему манипуляция предметами в реальном мире до сих пор отстает по уровню надежности от локомоции, спикер указывает на технологическую неготовность симуляторов. Для ходьбы было достаточно качественной симуляции контактов абсолютно жестких тел. Для бытовых задач необходимо с высокой скоростью обсчитывать деформируемые среды (нарезку овощей, работу с тестом), что пока вычислительно затруднено.

Вторая проблема — сложность программного описания наград. Если для ходьбы достаточно задать целевую скорость, то для кулинарии или уборки приходится вручную прописывать сотни метрик (например, толщину нарезки), которые не масштабируются на другие задачи.

В своих прогнозах на будущее спикер опирается на знаменитый «Горький урок» (The Bitter Lesson) Рича Саттона, согласно которому общие методы, делающие ставку на чистые вычислительные мощности, в конечном счете всегда побеждают с огромным отрывом. По мнению докладчика, с ростом производительности процессоров симуляция неизбежно научится воспроизводить любые сложные физические взаимодействия.

В отношении универсальных моделей вознаграждения спикер настроен сдержанно. Опыт дообучения LLM (включая RLHF и DeepSeek) показывает, что алгоритмы обучения с подкреплением склонны агрессивно эксплуатировать малейшие уязвимости и баги в суждениях нейросетей-критиков, уходя в нежелательные распределения. Тем не менее, лектор сохраняет оптимизм: в самом худшем случае индустрия сможет задействовать масштабируемую разметку наград силами миллиардов людей.

Конечная цель робототехники, по словам спикера, лежит далеко за пределами простого достижения паритета с возможностями человека. Переход на кремниевые компьютеры и приводы с высоким электрическим крутящим моментом позволит роботам выполнять задачи быстрее, точнее и эффективнее, чем это доступно углеродным организмам.

Ярким историческим примером служит AlphaGo, которая благодаря глубокому поиску и RL смогла открыть принципиально новые тактики, расширив представления человечества о возможностях интеллекта.