Юньчжу Ли на CS231N: от моделей мира к большим моделям поведения

В рамках курса Стэнфордского университета Stanford CS231N состоялась лекция ассистента профессора Колумбийского университета Юньчжу Ли (Yunzhu Li), посвящённая передовым методам обучения роботов (Robot Learning). Исследователь подробно разобрал эволюцию подходов к взаимодействию агентов с физическим миром — от классического обучения с подкреплением до современных роботизированных базовых моделей. Основной фокус материала направлен на преодоление разрыва между симуляцией и реальностью, а также на архитектурные решения, позволяющие наделить машины человеческой интуицией и ловкостью.

🎯 Формулировка задачи: чем обучение роботов отличается от компьютерного зрения 5:34

В традиционном компьютерном зрении специалисты преимущественно работают с обучением с учителем (supervised learning), где модель учится отображать входные данные $x$ в метки $y$ для задач классификации или детекции. Существует также самообучение (self-supervised learning), выявляющее скрытые структуры данных с помощью вспомогательных функций потерь, например, в автокодировщиках. Однако обучение роботов кардинально отличается от этих парадигм: робот обязан совершать физические действия, меняющие состояние окружающей среды. Каждое действие влечёт за собой эволюцию системы, предоставляя агенту новые наблюдения и награды. По словам Юньчжу Ли, если компьютерное зрение направлено на построение репрезентаций мира, то робототехника решает задачу последовательной оптимизации в условиях строгих физических ограничений.

В последнее время эта область переживает инвестиционный бум. На рынке появилось множество амбициозных стартапов, таких как Physical Intelligence, Figure и проект Tesla Bot, которые демонстрируют впечатляющие видео с роботами, раскладывающими вещи или сортирующими кофейные зёрна. Крупные технологические корпорации также активно развивают собственные робототехнические инициативы.

Математически задача взаимодействия робота с миром формализуется через цели, состояния, действия и награды. Докладчик привёл несколько классических и современных примеров такой формализации:

Балансирование шеста (Cart-pole): целью является удержание шеста вертикально на подвижной тележке; состояния включают угол, угловую скорость и позицию тележки; действием выступает горизонтальная сила, а награда равна 1 на каждом шаге удержания.
Локомоция роботов: цель заключается в движении вперёд; состояния описывают углы и скорости всех суставов; действиями являются крутящие моменты в суставах, а награда начисляется за каждый шаг вперёд при сохранении вертикального положения.
Игры Atari: целью выступает максимизация игрового счёта; состояниями являются сырые пиксели экрана; действиями — команды контроллера (вверх, вниз, влево, вправо), а наградой — изменение счёта.
Игра Го (AlphaGo): цель — победа в партии; состояния фиксируют расположение камней на доске; действия определяют позицию следующего хода, а финальная награда составляет 1 за выигрыш и 0 за проигрыш.
Языковые модели и чат-боты: цель последовательной генерации — предсказание следующего слова или поддержание качественного диалога; состояниями служат текущие слова или история беседы; действиями — генерация текста, а награда привязана к правильности ответа или удовлетворённости пользователя.
Складывание одежды: цель — аккуратно сложить вещь; состояния определяются многоракурсными RGB или RGBD-камерами; действиями выступают перемещения манипулятора и сжатие гриппера, а награда (1 или 0) выставляется на основе оценки человека.

Как подчёркивает лектор, дизайн функции награды содержит массу нюансов. В беспилотном вождении награда может балансировать между максимальной скоростью и комфортом пассажиров, а при складывании одежды — между минимальной площадью вещи и отсутствием складок.

👀 Роботизированное зрение: воплощённое, активное и ситуативное восприятие 12:30

Воспринимающая система робота работает в условиях неполных знаний о засорённой и хаотичной реальной среде. Процесс осложняется окклюзиями (заслонениями объектов), шумами датчиков и неизбежными ошибками самих манипуляций. Например, если робот случайно уронит объект, это вызовет непредсказуемое динамическое изменение окружения. Мир вокруг робота наполнен не только жёсткими телами, но и деформируемыми объектами (одежда, верёвки), а также другими агентами — людьми или домашними животными. Из-за этого робототехники не ограничиваются одними камерами, а внедряют мультимодальную интеграцию датчиков: тактильные сенсоры сообщают о стабильности захвата, аудиоинформация даёт дополнительные подсказки, а камеры фиксируют общую геометрию сцены.

Юньчжу Ли выделил три фундаментальных свойства роботизированного зрения, которые отличают его от пассивного компьютерного зрения:

Воплощённость (Embodied): робот обладает физическим телом и напрямую испытывает воздействие физического мира; его действия мгновенно влияют на его собственные сенсорные ощущения.
Активность (Active): робот сам выбирает, что, как, когда и где воспринимать; если ему нужно узнать, что находится за объектом, он может просто повернуть голову или изменить угол обзора. Традиционное компьютерное зрение, напротив, имеет дело со статичными, пассивно собранными датасетами.
Ситуативность (Situated): робот погружён в конкретный контекст «здесь и сейчас», напрямую определяющий его поведение. Ему не нужно знать полное состояние вселенной — например, при застёгивании пуговицы на рубашке системе достаточно отслеживать лишь локальную область вокруг этой пуговицы. Лектор считает, что восприятие должно быть жёстко связано и спроектировано совместно с нисходящими системами принятия решений.

🕹️ Обучение с подкреплением: от «Горького урока» до реального мира 18:22

Один из способов заставить робота действовать — классическое бесмодельное обучение с подкреплением (Model-Free RL), основанное на методе проб и ошибок. Агент взаимодействует со средой, собирает массив опыта и корректирует своё поведение в сторону действий, приносящих максимальную награду. Ли выделил четыре ключевые проблемы, усложняющие RL по сравнению с обучением с учителем:

Стохастичность среды: одно и то же действие может приводить к разным исходам из-за неопределённости физических параметров, например, характера сил трения при толкании коробки.
Проблема распределения наград во времени (Credit Assignment): награда в последовательных задачах часто бывает отложенной; в игре Го агент узнаёт, победил он или проиграл, только в самом конце партии, и соотнести этот исход с решением, принятым в середине игры, крайне сложно.
Недифференцируемость динамических систем: в отличие от сквозных нейросетей, физический мир нельзя дифференцировать напрямую, что вынуждает исследователей прибегать к массированному семплированию для нулевых оценок градиента.
Нестационарность процессов: действия агента напрямую формируют распределение будущих состояний среды, тогда как в supervised learning предсказание модели не меняет другие элементы датасета.

Популярным подходом в RL является обучение функции $Q(s, a)$, которая оценивает дисконтированную ожидаемую сумму будущих наград при совершении действия $a$ в состоянии $s$. Если состояние представлено картинкой, функция $Q$ реализуется в виде свёрточной нейросети (CNN), вычисляющей значения для дискретных действий. На сегодняшний день передовыми алгоритмами в этой сфере лектор назвал SAC (Soft Actor Critic) и PPO (Proximal Policy Optimization).

В качестве исторического примера Ли привёл проект Google DeepMind по обучению агента игре Breakout в системе Atari: через 10 минут тренировки алгоритм едва задевал мяч, через 2 часа играл стабильно, а через 4 часа самостоятельно открыл неочевидную для многих людей стратегию — пробивать туннель у левой стены, чтобы мяч эффективно уничтожал кирпичи сверху. Подобные триумфы подтверждают тезис Рича Саттона о «Горьком уроке» (Bitter Lesson): простейшие рецепты, максимально совместимые с масштабированием вычислительных мощностей, в итоге побеждают сложные инженерные правила. Эволюция от AlphaGo (январь 2016 года) к AlphaGo Zero (отказавшейся от инициализации через имитационное обучение и разгромившей Кэ Цзе), а затем к Alpha Zero и MuZero доказала превосходство масштабирования вычислений. В ноябре 2019 года легендарный чемпион Ли Седоль даже объявил о завершении карьеры, признав превосходство ИИ.

В области реальной робототехники прорывом стала статья исследователей из ETH Zurich в Science Robotics (2020 год). Она доказала лектору, что разрыв между симуляцией и реальностью (sim-to-real gap) можно преодолеть без детального моделирования кустов или снега. Достаточно проводить массированную рандомизацию параметров среды (доменную рандомизацию трения, геометрии) в симуляторах вроде NVIDIA Isaac Gym или Isaac Sim. В результате обученная политика устойчиво управляет четвероногими роботами на экстремально скользких поверхностях. Ли констатировал, что в сфере локомоции роботов задачу благодаря RL можно считать практически решённой.

🧠 Модели мира и планирование на основе предсказаний 36:57

Если в локомоции RL доминирует, то в задачах манипуляции объектами бесмодельный подход сталкивается с барьерами. Проект OpenAI 2019 года по сборке кубика Рубика одной роборукой обладал крайне низким процентом успеха в реальности и тестировался на ограниченном числе образцов. Бесмодельное RL требует колоссального объёма взаимодействий (AlphaGo Zero освоила 3000 лет человеческого опыта за 40 дней вычислений), несёт риски катастрофических поломок оборудования при обучении «вживую» и обладает слабой интерпретируемостью.

Взамен лектор предлагает обучать модели мира (World Models). Человек обладает интуитивным физическим пониманием и планирует действия, представляя их последствия в уме. Роботу можно привить схожую способность, обучив прямую модель (forward model), которая предсказывает следующее состояние $s_{t+1}$ на основе текущего $s_t$ и действия $a_t$. Планирование становится обратной задачей: зная цель, алгоритм генерирует последовательность действий с помощью градиентного спуска или параллельного семплирования на GPU, выполняет первое действие, получает обратную связь от среды и заново оптимизирует траекторию.

Исторически репрезентации состояний в моделях мира эволюционировали по следующим этапам:

Динамика пикселей: прогнозирование изменений на уровне 2D-картинок (подход Deep Visual Foresight), где цель — минимизировать дистанцию между текущим и целевым изображениями.
Динамика ключевых точек (Keypoints): отслеживание траекторий фиксированных 3D-точек на объекте, например, при толкании коробки.
Динамика частиц (Particles): представление объектов в виде массива точек, что идеально подходит для деформируемых сред.

В качестве примера Юньчжу Ли продемонстрировал свои исследования в Стэнфорде по манипуляции сыпучими материалами: робот успешно сгребал частицы разного размера в заданные зоны, формируя из них буквы от A до Z. Развитием идеи стал робот для приготовления пельменей (2023 год), оснащённый 15 инструментами, напечатанными на 3D-принтере, и 4 RGBD-камерами для реконструкции геометрии теста. Нейросетевая модель динамики частиц с высокой точностью прогнозировала изменение формы теста. По данным лектора, такая выученная модель оказалась намного точнее классических физических симуляторов, работающих на методе материальных точек (MPM — Material Point Method).

Робот продемонстрировал колоссальную устойчивость к внешним помехам: когда человек демонстративно разрушал раскатанный блинчик, система мгновенно пересчитывала план, возвращалась к начальному этапу и доводила процесс до конца — вырезала форму, выкладывала начинку и закрывала зажим с помощью специального крюка. Принятие решений шло на двух уровнях: обученный на 10 демонстрациях классификатор выбирал нужный инструмент (высокий уровень), а оптимизатор траекторий рассчитывал конкретные движения манипулятора (низкий уровень).

👥 Имитационное обучение: от клонирования поведения к диффузионным политикам 54:46

Альтернативой обучению модели мира является имитационное обучение (Imitation Learning), переносящее supervised-парадигму непосредственно на выучивание политик на основе человеческих демонстраций. Базовый алгоритм — клонирование поведения (Behavior Cloning) — напрямую отображает наблюдения в действия. Его фундаментальным недостатком лектор назвал лавинообразное накопление ошибок (cascading error): небольшое отклонение на старте выводит робота за пределы обучающего распределения данных, ошибка нарастает, и траектория необратимо деградирует. Для исправления этого жизненный цикл разработки включает итеративный сбор данных с фиксацией сбоев и записью корректирующих действий человека.

Существуют и более продвинутые ответвления имитационного обучения:

Обратное обучение с подкреплением (Inverse RL): алгоритм пытается восстановить скрытую функцию награды из демонстраций эксперта. Классический пример из Стэнфорда от Питера Аббиля (Pieter Abbeel) и Эндрю Ына (Andrew Ng) позволил автономно управлять вертолётами, выполняющими сложнейшие фигуры высшего пилотажа.
Неявные политики на базе энергетических моделей (Energy-Based Models): вместо жёсткого маппинга сеть оценивает «энергию» пар наблюдение-действие, что сглаживает ландшафт оптимизации и помогает работать с мультимодальными демонстрациями.
Диффузионные политики (Diffusion Policy): текущий технологический стандарт, заимствующий математический аппарат генеративных диффузионных моделей. Метод, разработанный в Колумбийском университете (чья ведущая исследовательница сейчас перешла на факультет электротехники Стэнфорда), обладает феноменальной скоростью развёртывания: сбор данных утром, обучение в обед и готовая работающая в физическом мире политика уже днём. Диффузионные политики позволяют роботам выполнять тончайшие манипуляции: намазывать масло, готовить яичницу, чистить картофель и аккуратно сдвигать книги.

🤖 Роботизированные базовые модели: эпоха больших моделей поведения 1:03:06

Главным драйвером текущего ажиотажа выступают роботизированные базовые модели (Robotic Foundation Models), также известные как модели «Зрение-Язык-Действие» (VLA — Vision-Language-Action) или большие модели поведения. По аналогии с текстовыми и визуально-языковыми моделями, они могут не всегда генерировать идеальное единичное действие, но их суммарная траектория движения должна оставаться плавной, непрерывной и семантически разумной, соответствующей текстовым командам человека. Данная область развивается стремительно: после релиза модели RT-1 в декабре 2022 года новые архитектуры (RT-2, RT-X, OpenVLA) выходят примерно раз в полгода, а в последнее время случился взрывной рост линеек вроде Helix, Hi-Robot, Gemini Robotics и Pi-Zero.

В качестве эталона Ли подробно разобрал открытую модель Pi-Zero от Physical Intelligence, вышедшую в октябре 2024 года и доказавшую ему жизнеспособность концепции базовых моделей для сложной декстерной манипуляции (например, складывания коробок и одежды). Архитектура Pi-Zero опирается на следующий пайплайн:

Сбор топлива (данных): агрегация гетерогенных датасетов взаимодействия множества различных роботов со средой.
Предобучение (Pre-training): за основу берётся готовая визуально-языковая модель (VLM), сохранившая огромный пласт семантических знаний о мире. Производится так называемое «совместное тонкое настраивание» (code fine-tuning), сочетающее задачи предсказания действий робота и визуального ответа на вопросы (VQA).
Постобучение (Post-training): критически важный этап адаптации базовой модели под конкретные целевые задачи. Если базовая модель справляется с простыми распределениями из претрейна, то для выполнения совершенно новых (unseen) или комплексных задач требуется собрать специализированный датасет и дообучить сеть.

Отвечая на вопросы студентов, Ли затронул проблему медлительности современных роботов по сравнению с человеком. По его мнению, ключевой виновник — метод сбора демонстрационных данных через телеуправление. Человек, управляющий роборуками удалённо, действует скованно из-за чужого физического воплощения, окклюзий и необходимости постоянно перепроверять точность сближения с объектом, и этот паттерн медлительности напрямую копируется нейросетью.

Также исследователь выразил скепсис относительно того, что одна гигантская нейросеть сможет безраздельно управлять роботом в хаотичных домашних условиях. Лектор считает, что для эффективного масштабирования VLA-моделей в распределённых средах верхнеуровнево должны применяться графы сцен и символические репрезентации.

🛑 Главные вызовы индустрии: кризис оценки и поиск «ImageNet для роботов» 1:13:41

В завершение лекции Юньчжу Ли обозначил фундаментальные барьеры, стоящие перед мировым сообществом робототехников. Первый и самый болезненный — кризис валидации. Сейчас оценку моделей приходится проводить вручную в реальном мире, развёртывая огромные аппаратные фермы (например, координатные сетки манипуляторов ALOHA в Google). Это невероятно дорого и субъективно: результаты тестов кардинально колеблются от малейшего изменения освещения, износа грипперов или флуктуаций трения. Представители Google в приватной беседе признались Ли, что прогресс у них движется лишь потому, что бюджет на оценку «достаточно огромен». Более того, выявилась слабая корреляция между тренировочной потерей (loss) и реальным успехом: низкая поочерёдная ошибка предсказания одного шага в обучении с учителем абсолютно не гарантирует жизнеспособность политики на длинном временном горизонте выполнения задачи.

Частично проблему пытаются решить симуляциями — бенчмарками BEHAVIOR (разрабатываемым в Стэнфорде) или Habitat 3.0 от Meta. Но и здесь индустрия упирается в невозможность точной физической симуляции тканей и деформаций, а также в колоссальную трудоёмкость оцифровки реальных ассетов и процедурной генерации фотореалистичных разнообразных локаций. По мнению Ли, сообществу жизненно необходима платформа уровня «ImageNet для воплощённого ИИ» (Embodied AI) — единый общепризнанный бенчмарк, где любое продвижение в метриках гарантировало бы автоматическое улучшение навыков физических роботов в реальности.

Перспективным вектором Ли видит создание не просто базовых политик управления, а фундаментальных моделей мира (Foundational World Models). Огромные массивы данных взаимодействия роботов содержат бесценные крупицы физических законов вселенной, и утилизировать их исключительно на обучение действий — непозволительное расточительство. Объединение фундаментальных моделей мира и базовых политик должно заложить основу для появления по-настоящему автономных, гибких и ловких машин будущего.