Юньчжу Ли на CS231N: от моделей мира к большим моделям поведения

Stanford Online 14,2 тыс. 1 ч 18 мин 11 мин 02.09.2025
Главное

В рамках курса Стэнфордского университета Stanford CS231N состоялась лекция ассистента профессора Колумбийского университета Юньчжу Ли (Yunzhu Li), посвящённая передовым методам обучения роботов (Robot Learning). Исследователь подробно разобрал эволюцию подходов к взаимодействию агентов с физическим миром — от классического обучения с подкреплением до современных роботизированных базовых моделей. Основной фокус материала направлен на преодоление разрыва между симуляцией и реальностью, а также на архитектурные решения, позволяющие наделить машины человеческой интуицией и ловкостью.

🎯 Формулировка задачи: чем обучение роботов отличается от компьютерного зрения 5:34

В традиционном компьютерном зрении специалисты преимущественно работают с обучением с учителем (supervised learning), где модель учится отображать входные данные $x$ в метки $y$ для задач классификации или детекции. Существует также самообучение (self-supervised learning), выявляющее скрытые структуры данных с помощью вспомогательных функций потерь, например, в автокодировщиках. Однако обучение роботов кардинально отличается от этих парадигм: робот обязан совершать физические действия, меняющие состояние окружающей среды. Каждое действие влечёт за собой эволюцию системы, предоставляя агенту новые наблюдения и награды. По словам Юньчжу Ли, если компьютерное зрение направлено на построение репрезентаций мира, то робототехника решает задачу последовательной оптимизации в условиях строгих физических ограничений.

В последнее время эта область переживает инвестиционный бум. На рынке появилось множество амбициозных стартапов, таких как Physical Intelligence, Figure и проект Tesla Bot, которые демонстрируют впечатляющие видео с роботами, раскладывающими вещи или сортирующими кофейные зёрна. Крупные технологические корпорации также активно развивают собственные робототехнические инициативы.

Математически задача взаимодействия робота с миром формализуется через цели, состояния, действия и награды. Докладчик привёл несколько классических и современных примеров такой формализации:

Как подчёркивает лектор, дизайн функции награды содержит массу нюансов. В беспилотном вождении награда может балансировать между максимальной скоростью и комфортом пассажиров, а при складывании одежды — между минимальной площадью вещи и отсутствием складок.

👀 Роботизированное зрение: воплощённое, активное и ситуативное восприятие 12:30

Воспринимающая система робота работает в условиях неполных знаний о засорённой и хаотичной реальной среде. Процесс осложняется окклюзиями (заслонениями объектов), шумами датчиков и неизбежными ошибками самих манипуляций. Например, если робот случайно уронит объект, это вызовет непредсказуемое динамическое изменение окружения. Мир вокруг робота наполнен не только жёсткими телами, но и деформируемыми объектами (одежда, верёвки), а также другими агентами — людьми или домашними животными. Из-за этого робототехники не ограничиваются одними камерами, а внедряют мультимодальную интеграцию датчиков: тактильные сенсоры сообщают о стабильности захвата, аудиоинформация даёт дополнительные подсказки, а камеры фиксируют общую геометрию сцены.

Юньчжу Ли выделил три фундаментальных свойства роботизированного зрения, которые отличают его от пассивного компьютерного зрения:

  1. Воплощённость (Embodied): робот обладает физическим телом и напрямую испытывает воздействие физического мира; его действия мгновенно влияют на его собственные сенсорные ощущения.
  2. Активность (Active): робот сам выбирает, что, как, когда и где воспринимать; если ему нужно узнать, что находится за объектом, он может просто повернуть голову или изменить угол обзора. Традиционное компьютерное зрение, напротив, имеет дело со статичными, пассивно собранными датасетами.
  3. Ситуативность (Situated): робот погружён в конкретный контекст «здесь и сейчас», напрямую определяющий его поведение. Ему не нужно знать полное состояние вселенной — например, при застёгивании пуговицы на рубашке системе достаточно отслеживать лишь локальную область вокруг этой пуговицы. Лектор считает, что восприятие должно быть жёстко связано и спроектировано совместно с нисходящими системами принятия решений.

🕹️ Обучение с подкреплением: от «Горького урока» до реального мира 18:22

Один из способов заставить робота действовать — классическое бесмодельное обучение с подкреплением (Model-Free RL), основанное на методе проб и ошибок. Агент взаимодействует со средой, собирает массив опыта и корректирует своё поведение в сторону действий, приносящих максимальную награду. Ли выделил четыре ключевые проблемы, усложняющие RL по сравнению с обучением с учителем:

Популярным подходом в RL является обучение функции $Q(s, a)$, которая оценивает дисконтированную ожидаемую сумму будущих наград при совершении действия $a$ в состоянии $s$. Если состояние представлено картинкой, функция $Q$ реализуется в виде свёрточной нейросети (CNN), вычисляющей значения для дискретных действий. На сегодняшний день передовыми алгоритмами в этой сфере лектор назвал SAC (Soft Actor Critic) и PPO (Proximal Policy Optimization).

В качестве исторического примера Ли привёл проект Google DeepMind по обучению агента игре Breakout в системе Atari: через 10 минут тренировки алгоритм едва задевал мяч, через 2 часа играл стабильно, а через 4 часа самостоятельно открыл неочевидную для многих людей стратегию — пробивать туннель у левой стены, чтобы мяч эффективно уничтожал кирпичи сверху. Подобные триумфы подтверждают тезис Рича Саттона о «Горьком уроке» (Bitter Lesson): простейшие рецепты, максимально совместимые с масштабированием вычислительных мощностей, в итоге побеждают сложные инженерные правила. Эволюция от AlphaGo (январь 2016 года) к AlphaGo Zero (отказавшейся от инициализации через имитационное обучение и разгромившей Кэ Цзе), а затем к Alpha Zero и MuZero доказала превосходство масштабирования вычислений. В ноябре 2019 года легендарный чемпион Ли Седоль даже объявил о завершении карьеры, признав превосходство ИИ.

В области реальной робототехники прорывом стала статья исследователей из ETH Zurich в Science Robotics (2020 год). Она доказала лектору, что разрыв между симуляцией и реальностью (sim-to-real gap) можно преодолеть без детального моделирования кустов или снега. Достаточно проводить массированную рандомизацию параметров среды (доменную рандомизацию трения, геометрии) в симуляторах вроде NVIDIA Isaac Gym или Isaac Sim. В результате обученная политика устойчиво управляет четвероногими роботами на экстремально скользких поверхностях. Ли констатировал, что в сфере локомоции роботов задачу благодаря RL можно считать практически решённой.

🧠 Модели мира и планирование на основе предсказаний 36:57

Если в локомоции RL доминирует, то в задачах манипуляции объектами бесмодельный подход сталкивается с барьерами. Проект OpenAI 2019 года по сборке кубика Рубика одной роборукой обладал крайне низким процентом успеха в реальности и тестировался на ограниченном числе образцов. Бесмодельное RL требует колоссального объёма взаимодействий (AlphaGo Zero освоила 3000 лет человеческого опыта за 40 дней вычислений), несёт риски катастрофических поломок оборудования при обучении «вживую» и обладает слабой интерпретируемостью.

Взамен лектор предлагает обучать модели мира (World Models). Человек обладает интуитивным физическим пониманием и планирует действия, представляя их последствия в уме. Роботу можно привить схожую способность, обучив прямую модель (forward model), которая предсказывает следующее состояние $s_{t+1}$ на основе текущего $s_t$ и действия $a_t$. Планирование становится обратной задачей: зная цель, алгоритм генерирует последовательность действий с помощью градиентного спуска или параллельного семплирования на GPU, выполняет первое действие, получает обратную связь от среды и заново оптимизирует траекторию.

Исторически репрезентации состояний в моделях мира эволюционировали по следующим этапам:

  1. Динамика пикселей: прогнозирование изменений на уровне 2D-картинок (подход Deep Visual Foresight), где цель — минимизировать дистанцию между текущим и целевым изображениями.
  2. Динамика ключевых точек (Keypoints): отслеживание траекторий фиксированных 3D-точек на объекте, например, при толкании коробки.
  3. Динамика частиц (Particles): представление объектов в виде массива точек, что идеально подходит для деформируемых сред.

В качестве примера Юньчжу Ли продемонстрировал свои исследования в Стэнфорде по манипуляции сыпучими материалами: робот успешно сгребал частицы разного размера в заданные зоны, формируя из них буквы от A до Z. Развитием идеи стал робот для приготовления пельменей (2023 год), оснащённый 15 инструментами, напечатанными на 3D-принтере, и 4 RGBD-камерами для реконструкции геометрии теста. Нейросетевая модель динамики частиц с высокой точностью прогнозировала изменение формы теста. По данным лектора, такая выученная модель оказалась намного точнее классических физических симуляторов, работающих на методе материальных точек (MPM — Material Point Method).

Робот продемонстрировал колоссальную устойчивость к внешним помехам: когда человек демонстративно разрушал раскатанный блинчик, система мгновенно пересчитывала план, возвращалась к начальному этапу и доводила процесс до конца — вырезала форму, выкладывала начинку и закрывала зажим с помощью специального крюка. Принятие решений шло на двух уровнях: обученный на 10 демонстрациях классификатор выбирал нужный инструмент (высокий уровень), а оптимизатор траекторий рассчитывал конкретные движения манипулятора (низкий уровень).

👥 Имитационное обучение: от клонирования поведения к диффузионным политикам 54:46

Альтернативой обучению модели мира является имитационное обучение (Imitation Learning), переносящее supervised-парадигму непосредственно на выучивание политик на основе человеческих демонстраций. Базовый алгоритм — клонирование поведения (Behavior Cloning) — напрямую отображает наблюдения в действия. Его фундаментальным недостатком лектор назвал лавинообразное накопление ошибок (cascading error): небольшое отклонение на старте выводит робота за пределы обучающего распределения данных, ошибка нарастает, и траектория необратимо деградирует. Для исправления этого жизненный цикл разработки включает итеративный сбор данных с фиксацией сбоев и записью корректирующих действий человека.

Существуют и более продвинутые ответвления имитационного обучения:

🤖 Роботизированные базовые модели: эпоха больших моделей поведения 1:03:06

Главным драйвером текущего ажиотажа выступают роботизированные базовые модели (Robotic Foundation Models), также известные как модели «Зрение-Язык-Действие» (VLA — Vision-Language-Action) или большие модели поведения. По аналогии с текстовыми и визуально-языковыми моделями, они могут не всегда генерировать идеальное единичное действие, но их суммарная траектория движения должна оставаться плавной, непрерывной и семантически разумной, соответствующей текстовым командам человека. Данная область развивается стремительно: после релиза модели RT-1 в декабре 2022 года новые архитектуры (RT-2, RT-X, OpenVLA) выходят примерно раз в полгода, а в последнее время случился взрывной рост линеек вроде Helix, Hi-Robot, Gemini Robotics и Pi-Zero.

В качестве эталона Ли подробно разобрал открытую модель Pi-Zero от Physical Intelligence, вышедшую в октябре 2024 года и доказавшую ему жизнеспособность концепции базовых моделей для сложной декстерной манипуляции (например, складывания коробок и одежды). Архитектура Pi-Zero опирается на следующий пайплайн:

  1. Сбор топлива (данных): агрегация гетерогенных датасетов взаимодействия множества различных роботов со средой.
  2. Предобучение (Pre-training): за основу берётся готовая визуально-языковая модель (VLM), сохранившая огромный пласт семантических знаний о мире. Производится так называемое «совместное тонкое настраивание» (code fine-tuning), сочетающее задачи предсказания действий робота и визуального ответа на вопросы (VQA).
  3. Постобучение (Post-training): критически важный этап адаптации базовой модели под конкретные целевые задачи. Если базовая модель справляется с простыми распределениями из претрейна, то для выполнения совершенно новых (unseen) или комплексных задач требуется собрать специализированный датасет и дообучить сеть.

Отвечая на вопросы студентов, Ли затронул проблему медлительности современных роботов по сравнению с человеком. По его мнению, ключевой виновник — метод сбора демонстрационных данных через телеуправление. Человек, управляющий роборуками удалённо, действует скованно из-за чужого физического воплощения, окклюзий и необходимости постоянно перепроверять точность сближения с объектом, и этот паттерн медлительности напрямую копируется нейросетью.

Также исследователь выразил скепсис относительно того, что одна гигантская нейросеть сможет безраздельно управлять роботом в хаотичных домашних условиях. Лектор считает, что для эффективного масштабирования VLA-моделей в распределённых средах верхнеуровнево должны применяться графы сцен и символические репрезентации.

🛑 Главные вызовы индустрии: кризис оценки и поиск «ImageNet для роботов» 1:13:41

В завершение лекции Юньчжу Ли обозначил фундаментальные барьеры, стоящие перед мировым сообществом робототехников. Первый и самый болезненный — кризис валидации. Сейчас оценку моделей приходится проводить вручную в реальном мире, развёртывая огромные аппаратные фермы (например, координатные сетки манипуляторов ALOHA в Google). Это невероятно дорого и субъективно: результаты тестов кардинально колеблются от малейшего изменения освещения, износа грипперов или флуктуаций трения. Представители Google в приватной беседе признались Ли, что прогресс у них движется лишь потому, что бюджет на оценку «достаточно огромен». Более того, выявилась слабая корреляция между тренировочной потерей (loss) и реальным успехом: низкая поочерёдная ошибка предсказания одного шага в обучении с учителем абсолютно не гарантирует жизнеспособность политики на длинном временном горизонте выполнения задачи.

Частично проблему пытаются решить симуляциями — бенчмарками BEHAVIOR (разрабатываемым в Стэнфорде) или Habitat 3.0 от Meta. Но и здесь индустрия упирается в невозможность точной физической симуляции тканей и деформаций, а также в колоссальную трудоёмкость оцифровки реальных ассетов и процедурной генерации фотореалистичных разнообразных локаций. По мнению Ли, сообществу жизненно необходима платформа уровня «ImageNet для воплощённого ИИ» (Embodied AI) — единый общепризнанный бенчмарк, где любое продвижение в метриках гарантировало бы автоматическое улучшение навыков физических роботов в реальности.

Перспективным вектором Ли видит создание не просто базовых политик управления, а фундаментальных моделей мира (Foundational World Models). Огромные массивы данных взаимодействия роботов содержат бесценные крупицы физических законов вселенной, и утилизировать их исключительно на обучение действий — непозволительное расточительство. Объединение фундаментальных моделей мира и базовых политик должно заложить основу для появления по-настоящему автономных, гибких и ловких машин будущего.

💬 Цитаты

«Если компьютерное зрение направлено на построение репрезентаций мира, то робототехника решает задачу последовательной оптимизации в условиях строгих физических ограничений.»

Юньчжу Ли 06:41

«В сфере локомоции роботов задачу благодаря RL можно считать практически решённой.»

Юньчжу Ли 33:07

«Сообществу жизненно необходима платформа уровня ImageNet для воплощённого ИИ.»

👥 Спикеры
📖 Термины
Sim-to-Real gap
Разрыв в точности между поведением робота в виртуальной симуляции и реальном физическом мире.
World Models (Модели мира)
Нейросетевые алгоритмы, способные прогнозировать будущие состояния физической среды в ответ на действия робота.
Diffusion Policy (Диффузионная политика)
Алгоритм управления роботом, основанный на генеративных диффузионных моделях для сглаживания траекторий движений.
Vision-Language-Action (VLA)
Мультимодальные базовые модели, трансформирующие визуальные данные и текстовые команды человека непосредственно в физические действия робота.
Behavior Cloning (Клонирование поведения)
Простейший метод имитационного обучения, обучающий робота копировать действия человека по принципу «наблюдение-действие».
📊 Цифры
🗓 Хронология
  1. Январь 2016 года Релиз алгоритма AlphaGo и его победа над Ли Седолем, вдохновившая Юньчжу Ли заняться робототехникой.
  2. Ноябрь 2019 года Официальное заявление чемпиона по Го Ли Седоля о завершении карьеры из-за непобедимости ИИ.
  3. 2019 год Проект OpenAI по сборке кубика Рубика с помощью обучения с подкреплением и симуляции.
  4. 2020 год Публикация знаковой статьи исследователей из ETH Zurich в Science Robotics о преодолении sim-to-real gap в локомоции.
  5. Декабрь 2022 года Выпуск первой роботизированной базовой модели RT-1, положившей начало эпохе VLA-моделей.
  6. 2023 год Разработка робота для лепки пельменей на базе нейросетевых моделей частиц в Стэнфорде.
  7. Октябрь 2024 года Выпуск открытой базовой модели Pi-Zero стартапом Physical Intelligence.
  8. Весна 2025 года Проведение текущей лекции Юньчжу Ли по обучению роботов в рамках курса Stanford CS231N.
⚖️ Другая сторона
Искусственный интеллект Юньчжу Ли Stanford CS231N Physical Intelligence Diffusion Policy NVIDIA Isaac Gym