От слепого робопса до Tesla Optimus: как алгоритмы Reinforcement Learning меняют робототехнику

В рамках курса Stanford CS224R по глубокому обучению с подкреплением (Deep Reinforcement Learning) в Стэнфордском университете состоялась лекция, посвященная ключевым факторам развития интеллекта современных роботов. Приглашенный эксперт, принимающий участие в разработке антропоморфных платформ в компании Tesla, детально описал путь преодоления разрыва между симуляцией и физическим миром (sim-to-real challenge). На примерах реальных кейсов — от слепого квадрупеда на пересеченной местности до манипуляций Optimus — лектор продемонстрировал, почему будущее индустрии лежит в плоскости масштабирования вычислений и алгоритмов адаптации в реальном времени.

🔄 Обучение с подкреплением против имитационного обучения 0:05

Для понимания природы современных успехов робототехники необходимо провести четкую границу между имитационным обучением (Imitation Learning) и обучением с подкреплением (Reinforcement Learning), сопоставляя те их версии, которые доказали свою практическую эффективность.

Имитационное обучение сегодня доминирует в сфере предобучения больших моделей визуального языка (VLM), генерации видео и сегментации изображений. Лучшие современные модели сегментации обучаются именно через ту или иную форму подражания.

В то же время обучение с подкреплением показывает непревзойденные результаты в трех ключевых доменах:

Сложные стратегические игры (например, классический Go или комплексные симуляции).
Логическое мышление и многошаговые рассуждения в больших языковых моделях (LLM), выводящие их далеко за рамки возможностей стандартного предобучения.
Динамическая робототехника, требующая мгновенной реакции на изменения среды.

Фундаментальное различие между этими парадигмами кроется в характере данных и типе получаемых агентов. Имитационное обучение жестко опирается на автономные данные (off-policy data), которые собираются людьми или сторонними системами в отрыве от финальной улучшаемой стратегии.

Успешное же обучение с подкреплением работает в режиме on-policy: агенту необходимо самостоятельно разворачивать свою текущую стратегию для генерации распределения данных. При таком подходе любая точка, полученная в процессе симуляции или реального прогона, становится ценным ресурсом. Система учится не только на позитивных примерах, но и на собственных ошибках, что позволяет формировать чрезвычайно точные и выверенные паттерны поведения.

Как отмечает спикер, имитационное обучение, как правило, поставляет нам «универсалов» (generalists) — одну модель для широкого спектра базовых задач. Обучение с подкреплением, напротив, либо создает узкоспециализированных экспертов (specialists), либо помогает глубоко адаптировать и специализировать уже предобученные универсальные модели под сверхсложные условия. Эти подходы не исключают друг друга: например, в AlphaGo имитационное обучение использовалось для «горячего старта» (warm start) и последующего запуска алгоритмов самообучения (self-play).

⚙️ Секреты успеха RL: награды и масштабирование 3:11

Качественный анализ триумфа алгоритма AlphaGo над лучшими мировыми гроссмейстерами показывает, что система смогла превзойти человеческие возможности за счет выявления принципиально новых, не применявшихся ранее тактических ходов. Аналогично, глубокое подкрепление в LLM позволило добиться связного, точного и последовательного рассуждения на длинных горизонтах планирования задач. По мнению докладчика, во всех трех успешных доменах (игры, LLM, робототехника) ключевую роль играют два общих слагаемых успеха.

Во-первых, это наличие четко специфицированных, верифицируемых функций награды (well-specified rewards). В AlphaGo функция награды была разреженной, но абсолютно прозрачной: победа или поражение фиксировались однозначно на основе финального состояния доски. В контексте современных рассуждающих языковых моделей (лектор ссылается на техническую документацию архитектуры DeepSeek) разработчики также применяют проверяемую функцию награды на основе строгих правил (rule-based reward function). Это позволяет полностью автоматизировать процесс оценки без привлечения субъективного мнения человека.

Во-вторых, критически важна возможность запускать политики на сверхвысоких масштабах (scale with compute). Зная правила игры в Go, разработчики переносят ее в симуляцию, превращая физическую или логическую проблему в цифровую. Вычислительные мощности напрямую конвертируются в терабайты уникальных данных, обрабатываемых алгоритмами RL. Для языковых моделей этот процесс выглядит как масштабный параллельный запуск агентов на кластерах с автоматической валидацией результатов, что делает сбор данных беспрецедентно дешевым и эффективным.

🐕 Алгоритм RMA: как научить робота ходить «вслепую» 6:03

Ближайшим приближением к созданию идеальной масштабируемой среды в робототехнике является физическая симуляция. В ней можно программно рассчитать любое состояние мира и собирать терабайты данных. Однако обучение в симуляции порождает проблему переноса навыков на реальное железо.

Для демонстрации решения этой проблемы спикер представил архивные видеозаписи испытаний четырехногого робота в Беркли. Аппарат весом 12 кг управлялся полностью вслепую (без камер и лидаров) за счет вычислений на бортовом компьютере в реальном времени. В ходе тестов робот успешно преодолевал крупные хаотичные валуны, застревая лапами, но мгновенно корректируя усилия. Он безошибочно поднимался по незнакомым крутым лестницам, удерживал баланс на мокрой скользкой траве, преодолевал глубокую грязь, зыбучий песок и строительный мусор. По заверению докладчика, на всех видеозаписях работала одна и та же нейросетевая модель с идентичными весами, запущенная zero-shot — без какой-либо предварительной донастройки под конкретный тип грунта.

Этот подход лег в основу технологии Rapid Motor Adaptation (RMA), представленной на конференции RSS в 2021 году. Пошагово процесс построения такой системы выглядит следующим образом:

Этап базового обучения в симуляции. Архитектура (Base Policy) обучается совершать действия, получая на вход текущее состояние виртуального мира. Чтобы модель не стала узкоспециализированной, разработчики массово рандомизируют физические параметры среды: массу робота, коэффициенты трения, силу сцепления. При этом на этапе обучения нейросети открывается прямой доступ ко всем этим скрытым параметрам. Они упаковываются в компактный вектор внешних характеристик — extrinsics ($z$).
Формирование комплексной награды. Для обучения используется алгоритм PPO (Proximal Policy Optimization), обрабатывающий около 1 млрд семплов. Целевая функция включает в себя 10 различных наград. Часть из них задает верхнеуровневую задачу (удержание заданной линейной и угловой скорости), часть — отвечает за энергоэффективность (минимизация потребления тока), а финальный блок штрафует систему за жесткие удары о землю, предотвращая износ реального железа.
Создание модуля онлайн-адаптации. В реальном мире вектор физических параметров $z$ (например, точное трение под лапой) измерить невозможно. Ключевая идея RMA заключается в том, что физику среды можно косвенно оценить за доли секунды на основе истории проприоцептивных наблюдений (observation history) — сопоставляя поданные команды и их фактическое исполнение моторами. Если лапа робота скользит по маслу, возникает мгновенное расхождение между целевым и реальным углом поворота сустава. Эта разница сигналов и служит триггером для оценки внешней среды.
Дистилляция через алгоритм DAGGER. В симуляции, где есть доступ и к точной истории, и к истинным параметрам среды, запускается обучение «студента» под контролем «учителя». Модуль адаптации учится по истории команд предсказывать вектор внешних характеристик $z$. Обученный блок копируется на физического робота. Примечательно, что базовая сеть управления на борту работает на частоте 100 Гц, а модуль адаптации из-за дефицита вычислительной мощности процессора запускается на частоте 10 Гц. Как показала практика, такой асинхронности достаточно для сохранения стабильности.

Эксперименты в жилой комнате включали в себя разлив оливкового масла на скользкий пластиковый тент: робот проскальзывал, но удерживал равновесие. При внезапном набросе на спину аппарата мешка весом 5 кг (что составляет почти половину массы самого робота при его номинальной грузоподъемности в 3 кг), система за несколько шагов перестраивала походку. В тестах с отключенным модулем адаптации (когда вектор $z$ замораживался на старте) робот быстро заваливался на бок или увязал в мягком поролоне, так как не понимал необходимости увеличить крутящий момент моторов для выноса лап на достаточную высоту.

Анализ графиков крутящего момента коленного сустава робота на масляной поверхности показал, что в момент проскальзывания система мгновенно фиксирует аномальное изменение походки. Модуль адаптации резко меняет внутренние значения скрытого вектора, после чего профиль усилий стабилизируется, возвращаясь к штатному паттерну движения уже с учетом новых физических свойств покрытия. При падении груза весом 5 кг крутящий момент в пике достигает предельных значений, но затем плавно выходит на новое, более высокое плато, необходимое для компенсации избыточной массы.

📊 Сравнение с базовыми подходами и SysID 18:09

В рамках верификации метода RMA было проведено его количественное и качественное сравнение с альтернативными инженерными подходами:

Robust (Domain Randomization): Стратегия обучается «вслепую» быть максимально устойчивой ко всем потенциальным аномалиям без явного вычисления параметров среды. Данный метод показал избыточно консервативный стиль ходьбы, сниженный процент успешных прохождений трассы, а также повышенный уровень рывков (jerk) и пиковых моментов. Робот постоянно двигался избыточно агрессивно, страхуясь от падения.
System Identification (SysID): Классический подход, нацеленный на явное аналитическое предсказание физических констант (точного значения коэффициента трения или массы в килограммах) с последующей передачей этих метрик в контроллер. Спикер подчеркивает, что точное предсказание физики по скольжению — чрезвычайно сложная и избыточная задача. Попытка явного вычисления SysID-параметров показала эффективность даже более низкую, чем у стандартного «устойчивого» (Robust) подхода.
Fine-tuning на инференсе: Метод адаптации политики путем ее дообучения непосредственно во время работы в реальном мире. По оценке лектора, RMA идеологически ближе к концепции контекстного обучения (in-context learning), где адаптация происходит на лету в рамках одного прямого прохода нейросети (feedforward pass), требуя доли секунды, в отличие от долгого градиентного дообучения.

👁️ Интеграция зрения: отказ от карт высот 21:16

Если слепой робот способен столь эффективно передвигаться по пересеченной местности, возникает резонный вопрос: зачем вообще интегрировать в систему техническое зрение? По словам спикера, для этого есть две веские причины. Во-первых, существуют принципиально непреодолимые без зрения препятствия — широкие расщелины, отдельно стоящие камни (stepping stones) или необходимость совершить прыжок. Во-вторых, это вопрос элегантности и долговечности: робот, постоянно бьющийся лапами о ступени лестницы ради получения проприоцептивного отклика, быстро разрушит свои приводы.

Традиционный подход к интеграции зрения в робототехнике подразумевает жесткое разделение (декаплинг) систем: модуль восприятия строит детальную метрическую карту высот (terrain map), которая затем передается в контроллер движения. Спикер утверждает, что в этой схеме кроется фундаментальный изъян. Построение карты — сложнейшая задача; карты всегда получаются зашумленными из-за дрейфа одометрии, наличия травы или нежестких объектов. На этапе построения карты безвозвратно теряется критически важная визуальная информация, и разработчикам приходится обучать контроллер быть устойчивым к колоссальному объему шума метрических карт.

В работе команды, представленной на конференции CoRL в 2022 году, было предложено революционное решение — полностью отказаться от построения промежуточных карт высот и напрямую связать зрение с управлением. В финальной сборке робот получает сырой эгоцентрический поток данных (depth map) с бортовой камеры глубины и объединяет его с историей проприоцепции. На тестовых видео маленький робот уверенно шагает по неустойчивым круглым стульям-платформам с хаотично меняющимися зазорами, штурмует в горах разрушенные каменные ступени, высота которых сопоставима с длиной его конечностей, и карабкается по скользким завалам из мокрой древесины и строительного мусора. Примечательно, что робот не всегда идеально ставит лапу с первого раза: он может оступиться, но контекст памяти позволяет ему мгновенно совершить корректное повторное движение.

Двухэтапный процесс обучения этой сквозной (end-to-end) модели выглядит так:

В симуляции IsaacGym базовый контроллер обучается на идеальной, не зашумленной карте высот с использованием алгоритма PPO. Процесс идет быстро, так как на первом этапе нет необходимости рендерить сложные визуальные сцены.
На втором этапе подключается энкодер сырой карты глубины. Через алгоритм DAGGER «студент» учится по визуальному потоку воспроизводить те признаковые пространства, которые «учитель» генерировал на основе идеальной карты высот. Попытка обучить такую сеть напрямую со зрением с первого шага привела бы к замедлению процесса на порядок из-за колоссальных временных затрат на рендеринг графики в симуляторе.

В качестве архитектурной основы интеграции временных последовательностей команда применила рекуррентные нейросети (RNN), которые обеспечили достаточную глубину памяти, хотя детального сравнения эффективности RNN с архитектурой трансформеров в данной задаче не проводилось.

Поскольку разработчики не навязывали системе жестких математических паттернов ходьбы (задавая лишь вектор скорости), у робота развилось выраженное эмерджентное поведение. Из-за малого роста аппарату не хватало стандартного клиренса для вертикального подъема лапы на высокую ступень. В итоге нейросеть самостоятельно научилась оригинальному трюку — робот стал выворачивать лапы далеко вбок, огибая край ступени по дуге, что позволило ему преодолевать препятствия человеческого масштаба. Тесты подтвердили: при сильных шумах среды слепой робот или робот с прямым кодированием глубины радикально превосходят системы, опирающиеся на классические карты высот. На сложных ступенях карта высот дает столь сильную погрешность, что роботу выгоднее ориентироваться на «ощупь», чем верить ошибочным метрическим картам.

🖐️ Квалифицированная манипуляция и адаптация дронов 38:26

Принципы онлайн-адаптации на основе истории проприоцепции были успешно масштабированы на принципиально иные физические домены. Первым из них стала задача квалифицированной манипуляции пальцами (dexterous manipulation) — вращение произвольных предметов в воздухе с помощью многопалой роборуки. Единая нейросетевая модель без физических модификаций обеспечила стабильное вращение объектов с колоссальным разбросом характеристик: легких воланчиков для бадминтона весом 5 граммов, тяжелых металлических сфер весом 200 граммов, бумажных полотенец, чашек, кубиков, шершавых плодов киви и кусков скользкого льда. Модели удавалось удерживать предметы со смещенным центром тяжести и сложной геометрией.

По гипотезе разработчиков, история изменения углов суставов эффективно используется нейросетью для мгновенного детектирования моментов контакта с поверхностью предмета. На графиках отчетливо видно: когда палец свободно движется в воздухе, целевая позиция привода совпадает с фактической. Но в момент соприкосновения с твердым телом возникает непреодолимое сопротивление, координата сустава замирает, а ток в моторе растет. Этого неявного сигнала системе достаточно, чтобы за доли секунды составить внутреннее представление о форме, габаритах и податливости зажатого объекта (например, не раздавив при этом мягкую деформируемую апельсиновую корку).

Вторым доменом применения архитектуры стали адаптивные полеты беспилотных летательных аппаратов (БПЛА). Одна и та же нейросеть с идентичными весами управляла квадрокоптерами принципиально разной морфологии: масса тестовых дронов различалась в 4 раза, а длина лучей — в 3 раза. Модель подавала команды напрямую на регуляторы оборотов каждого из четырех пропеллеров. При запуске тяжелого дрона система сначала испытывала небольшие осцилляции (уходило около секунды на оценку изменившейся массы и плеча рычага), но затем полет полностью стабилизировался. Робастность системы проверялась жестким тестом: в пропеллер летящего квадрокоптера на высокой скорости выстреливали теннисным мячом. Аппарат отбрасывало в сторону, но он мгновенно компенсировал динамический удар и восстанавливал точку зависания.

🤖 Гуманоиды Tesla и будущее робототехники 42:05

Логическим завершением развития интеллектуальных систем управления является их перенос на гуманоидные платформы (humanoids), поскольку именно эта форма оптимально приспособлена для работы в созданной людьми инфраструктуре. Спикер продемонстрировал актуальные успехи компании Tesla в обучении робота Optimus. Двуногая ходьба на практике оказывается куда менее прощающей к ошибкам системой, чем квадрупед: biped-платформа исходно нестабильна и требует от бортовых контроллеров предельной реактивности. Нейросети Tesla обучаются в симуляторах и разворачиваются zero-shot на физических прототипах, позволяя им автономно балансировать на грунтовых склонах и совершать сложные динамические танцевальные движения полностью за счет бортовых вычислителей.

В сфере манипуляций Optimus задействует сквозную нейросеть, принимающую текстовые команды на естественном языке. Базовые навыки системы собирались из сотен тысяч часов эгоцентрических видеозаписей того, как обычные люди выполняют бытовые задачи руками, с последующей математической проекцией этих движений на кинематику роборуки. Тем не менее, докладчик откровенно признает: текущие результаты в манипуляциях все еще остаются недостаточно надежными и стабильными.

Возникает фундаментальный вопрос: почему если задачи локомоции (ходьбы) были эффективно решены на высочайшем уровне надежности еще 3–4 года назад, то в сфере манипуляций индустрия до сих пор не имеет сопоставимого уровня автономности? Спикер видит две фундаментальные причины:

Готовность симуляторов: Для ходьбы физика контактов абсолютно жестких тел (лапа и асфальт) была отлично проработана математически. Но для манипуляций требуется симулировать деформируемые, мягкие, сыпучие и жидкие среды (нарезка овощей, замешивание теста, распределение муки). Симуляторы пока не способны моделировать такие процессы с высокой скоростью.
Сложность функций наград: Для локомоции награда проста и универсальна — поддерживать заданную скорость и не падать. Для манипуляций невозможно написать одну формулу. Если вы хотите порезать огурец, вам придется вручную кодить математическую оценку толщины каждого отсеченного кусочка. Но эта функция награды никак не поможет роботу решить следующую задачу — например, раскатать тесто. Процесс проектирования наград превращается в бесконечную ручную работу, которая абсолютно не масштабируется.

В финальной, спекулятивной части лекции Ашиш Кумар поделился своим видением преодоления этого тупика, делая однозначную ставку на концепцию Рича Саттона «Горький урок» (The Bitter Lesson). Суть этой философии проста: любые попытки человека внедрить в систему свои хитрые экспертные знания и правила в долгосрочной перспективе проигрывают общим методам, основанным на чистом масштабировании вычислений и поиске. По мнению лектора, по мере неизбежного роста мощности процессоров симуляторы научатся быстро и достоверно обсчитывать любые сложные деформации сред.

Попытки использовать большие языковые или визуальные модели в качестве универсальных оценщиков (генераторов наград) пока сталкиваются с серьезной проблемой: алгоритмы обучения с подкреплением молниеносно находят скрытые математические уязвимости и баги в нейросетях-судьях, начиная «хакать» награду. Это наглядно видно на примере классического RLHF или в экспериментах DeepSeek: если уйти от жестких проверяемых математических правил, агент быстро оптимизирует свои действия в сторону ложного распределения. Спикер оптимистичен: даже в самом худшем, тупиковом сценарии ИТ-индустрия сможет привлечь миллиарды людей по всему миру для прямой масштабируемой интерактивной разметки правильности действий роботов.

В завершение доклада спикер призвал пересмотреть базовое отношение к робототехнике. Большинство лабораторий мира видят своей финальной целью достижение паритета с возможностями человека. Безусловно, этот день станет цивилизационным сдвигом. Однако, по мнению Ашиша Кумара, достижение человеческого уровня — лишь первый шаг. Приводы роботов работают на колоссальном электрическом крутящем моменте, а их управляющие контуры базируются на кремнии, а не на углероде. Роботы способны двигаться быстрее, точнее и эффективнее биологических существ. Подобно тому как AlphaGo открыла стратегии, недоступные человеческому разуму, масштабное обучение с подкреплением позволит роботам будущего открыть такие грани физической ловкости, маневренности и координации, которые принципиально недоступны человеку.