# Использование физических моделей для обучения роботов ловкой манипуляции

Источник: https://www.youtube.com/watch?v=reQt9oiYla8
Канал: Stanford Online
Опубликовано: 25.11.2024

---

Системы управления роботами достигли впечатляющих успехов, однако до сих пор пасуют перед задачами, требующими гибкости человеческой руки. В рамках семинара в Стэнфордском университете Альберт (Albert), докторант лаборатории профессора Карен Лью (Karen Liu), представил интегративный подход, объединяющий нейросетевое обучение с классическими физическими моделями для создания по-настоящему адаптивной робототехники.

## 🤖 Почему «большие данные» не решили проблему манипуляции?
[[JUMP:01:18]]

За последние десять лет робототехника сделала колоссальный рывок, демонстрируя трюки, которые раньше казались невозможными [01:18]. Однако, по мнению Альберта, современная манипуляция далека от «решения». Текущие методы обучения с подкреплением (RL) или диффузионные политики (Diffusion Policy) страдают от отсутствия обобщающей способности (generalizability) и надежности [01:46].

Основные препятствия, которые выделяет докладчик:

*   **Ограниченность диффузионных политик:** они требуют огромных датасетов и часто привязаны к конкретным формам объектов. Смена геометрии предмета зачастую требует переобучения модели [02:26].
*   **Дороговизна обучения с подкреплением:** процесс настройки (tuning) RL-алгоритмов остается медленным и трудоемким, а полученные навыки часто ограничены одной средой или объектом [02:52].

Альберт утверждает, что корень проблемы — в сложнейших физических ограничениях, которые управляют манипуляцией. В отличие от навигации роботов, манипуляция сталкивается с невыпуклыми (non-convex) и гибридными динамическими системами [03:05].

### Три кита физических ограничений
Спикер выделяет три ключевых категории ограничений, которые необходимо учитывать:

1.  **Кинематика:** коллизии (столкновения) и достижимость. Это геометрические ограничения, зависящие от формы робота и объекта [03:46].
2.  **Контактные моды:** описание конфигурации контактов между роботом, объектом и окружающей средой. Изменение контакта мгновенно меняет динамику системы [04:26].
3.  **Силовое замыкание (Force Closure) и конус трения:** критические условия для удержания объекта многопалой рукой. Если сумма внешних сил и моментов не равна нулю, захват сорвется [05:20].

## 🖐️ Проект 1: Ловкий захват (Dexterous Grasping)
[[JUMP:08:29]]

Захват многопалой кистью на порядок сложнее, чем обычным параллельным гриппером. У четырехпалой руки более 20 степеней свободы против 7 у стандартного захвата [08:29]. В этом проекте команда Альберта предложила гибридный конвейер:

*   **Offline-генерация данных:** используя аналитические модели, ученые создали базу данных «правильных» захватов.
*   **Генеративная модель:** на основе этих данных обучена CVAE (условный вариационный автоэнкодер), которая предсказывает точки контакта пальцев на объекте [09:47].
*   **Локальная оптимизация:** если предсказание нейросети не идеально (например, силы не уравновешены), запускается быстрый алгоритм уточнения. Он «подправляет» положение пальцев, чтобы удовлетворить условиям конуса трения и силового замыкания [10:28].

В ходе испытаний система показала почти 90% успеха на 20 различных объектах, включая те, что робот никогда не видел во время обучения [11:08]. Спикер подчеркивает, что нейросеть дает «хорошую догадку» (initial guess), а физическая модель доводит ее до совершенства [11:48].

## 📚 Проект 2: Предварительный захват (Pre-grasping)
[[JUMP:12:35]]

В реальной жизни предметы редко лежат удобно. Они могут быть прижаты к стене или лежать в куче, что делает прямой захват невозможным. Здесь вступает в дело «предварительный захват» — манипуляция объектом для приведения его в удобную позу (например, выдвигание книги с полки пальцем) [12:52].

Сложность в том, что «хороший предварительный захват» определяется тем, приведет ли он в итоге к успешному конечному захвату. Это создает вычислительно дорогую цепочку планирования [13:17].

Решение команды:

1.  **Функция оценки (Score Function):** нейросеть обучается предсказывать перспективность промежуточной позы объекта [14:47].
2.  **Граф контактных состояний:** строится граф возможных перемещений пальцев по поверхности [14:53].
3.  **Оптимизация траектории:** робот выбирает путь, который физически реалистичен и минимизирует усилия по перемещению предмета к цели [15:26].

## 📦 Проект 3: Экстернальная манипуляция (Extrinsic Manipulation)
[[JUMP:17:12]]

Экстернальная манипуляция — это использование окружающей среды (стола, стен) как «дополнительных пальцев». По мнению Альберта, этот процесс можно разбить на примитивы: толкание (pushing), вытягивание (pulling) и вращение на опоре (pivoting) [18:46].

Основная инновация здесь — **перенос навыка (Retargeting)**. Исследователи используют одну-единственную демонстрацию человека (даже не на роботе), чтобы зафиксировать последовательность действий [19:26]. Затем система, используя физические модели и обратную кинематику, адаптирует эти движения под новую форму объекта и новую сцену. Это позволяет выполнять длинные цепочки задач (long-horizon tasks), которые ранее считались неподъемными для простых алгоритмов [20:17].

## 🔍 Вопросы и инженерные вызовы
[[JUMP:22:49]]

В ходе сессии вопросов и ответов один из слушателей спросил, почему на видео часто один палец робота поджат. Альберт честно ответил: для выполнения многих задач достаточно трех точек контакта, и поджатый палец — это просто минимизация сложности вычислений в конкретный момент [23:03].

На вопрос о том, почему 87% успеха недостаточно для индустрии, спикер указал на «проблему последней мили». Оставшиеся 13% неудач часто связаны не с алгоритмами, а с инженерными ограничениями: перегревом приводов робота, отсутствием калибровки столкновений с краем стола или механическим заклиниванием [27:45]. Переход от 90% к 100% надежности требует титанической инженерной работы, сопоставимой по сложности со всем предыдущим этапом разработки [28:11].