# Как ИИ-модели мира обучают роботов не рассыпать конфеты и понимать контекст

Источник: https://www.youtube.com/watch?v=zRq_3f4qrcU
Канал: Stanford Online
Опубликовано: 30.04.2025

---

На семинаре в Стэнфордском университете (Stanford University) обсуждалась одна из самых сложных проблем современной робототехники — обеспечение безопасности машин в непредсказуемом «открытом мире». Основной докладчик представил инновационный подход, объединяющий классическую теорию управления с современными генеративными моделями ИИ, чтобы научить роботов справляться с задачами, которые невозможно описать простыми формулами, например, не рассыпать конфеты из открытого пакета или подавать чашку воды, не касаясь её краев пальцами.

## 🛑 Почему «просто остановиться» — это не всегда безопасно
[[JUMP:0:08]]

За последние десять лет робототехника совершила колоссальный скачок: от мучительных попыток заставить манипулятор просто поднять чашку до полностью беспилотных такси в центре Сан-Франциско [0:35]. Однако широкое внедрение роботов в повседневную жизнь требует нового понимания безопасности, которое выходит далеко за рамки классического предотвращения столкновений.

Докладчик подчеркивает, что безопасность в открытом мире — это нюансированная концепция. В качестве примера приводится инцидент с автомобилем Tesla на мосту через залив Сан-Франциско [1:43]:

*   Автопилот совершил резкое торможение («фантомное торможение») посреди оживленной трассы.
*   Это привело к массовому столкновению нескольких машин.
*   Парадокс заключается в том, что стандартная инструкция «в случае опасности — остановись» в данном контексте сама стала причиной аварии [1:57].

Таким образом, принятие решений роботом критически зависит от контекста. Безопасный робот должен уметь запрашивать помощь при неопределенности и понимать последствия своих действий, например, не предлагать положить металлическую миску в микроволновую печь [2:49].

## ⚙️ Классический контроль и его ограничения
[[JUMP:3:16]]

Традиционно безопасность роботов базировалась на теории робастного управления и методе достижимости Гамильтона-Якоби (Hamilton-Jacobi reachability). В этой математической структуре безопасность означает удовлетворение заданных ограничений [3:42].

Классический «фильтр безопасности» состоит из четырех обязательных ингредиентов:

1.  **Пространство состояний:** координаты, скорость, ориентация.
2.  **Модель динамической системы:** описание того, как действия робота меняют его состояние.
3.  **Внешние возмущения:** учет помех или действий других агентов.
4.  **Описание отказа:** четко заданное подмножество пространства состояний, в которое роботу заходить нельзя [8:09].

Несмотря на математическую стройность, у этого подхода есть «ахиллесова пята»: он требует ручного проектирования моделей динамики и датчиков столкновений. По словам спикера, любой студент знает, как мучительно выписывать эти правила для сложных систем [4:19]. Более того, классические методы почти всегда сводятся к предотвращению столкновений, но они бессильны, если нужно описать разлив жидкости, разрыв ткани или поломку хрупкого предмета [12:35].

## 🍬 Тест на Skittles: проблема неструктурированных объектов
[[JUMP:12:48]]

Для иллюстрации проблемы сложности докладчик провел интерактивный опрос аудитории, используя пример с роботом-манипулятором и открытым пакетом конфет Skittles [13:00]. Если робот резко дернет пакет за дно, конфеты рассыплются.

Спикер указал на трудности моделирования такой ситуации:

*   **Состояние:** нужно ли учитывать положение каждой конфеты, их цвет, деформацию пластикового пакета или вес содержимого? [14:13].
*   **Динамика:** моделирование динамики рассыпающихся конфет через физику жидкостей крайне трудозатратно и сложно.
*   **Отказ:** как математически описать «просыпание», если робот даже не видит конфеты, пока они внутри пакета? [15:32].

Вывод исследователей: необходимо уходить от ручного проектирования состояний к использованию латентных (скрытых) представлений, которые ИИ может выучить самостоятельно из видеоданных.

## 🧠 Безопасность в латентном пространстве «моделей мира»
[[JUMP:16:39]]

Решение, предложенное группой докладчика, заключается в объединении теории управления с генеративными «моделями мира» (world models). Вместо того чтобы работать с пикселями или сложными физическими формулами, робот обучается в сжатом латентном пространстве [16:52].

Процесс обучения выглядит следующим образом:

*   Робот получает набор данных из пар «наблюдение — действие» (видео с камер и данные о движении манипулятора).
*   Обучается энкодер, сжимающий изображение в латентное состояние $z$.
*   Обучается модель динамики, которая предсказывает следующее состояние $z$ на основе текущего действия [18:28].
*   Классификатор отказов размечает латентные состояния как «безопасные» или «опасные» на основе визуальных признаков (например, когда конфеты уже видны на столе) [19:33].

Ключевая инновация — это «латентное уравнение Беллмана для безопасности». Робот в своем «воображении» проигрывает возможные сценарии будущего. Если он понимает, что любое его действие в ближайшие секунды приведет к рассыпанию конфет, он помечает текущее состояние как «обреченное» и активирует стратегию предотвращения [22:40].

## 📊 Эксперименты: от симуляций до реального железа
[[JUMP:24:52]]

Эффективность метода была проверена как на стандартных тестах (модель автомобиля Дубинса), так и в реальных задачах манипуляции.

**Результаты тестов:**

*   В задаче с перемещением блоков робот успешно замедлялся или отъезжал назад, если риск опрокинуть красные (запретные) блоки становился слишком велик [29:44].
*   В эксперименте со Skittles система использовала 1300 траекторий для обучения, из которых 80% были чисто случайными движениями («болтанием») [31:58].
*   Фильтр безопасности успешно блокировал команды оператора, пытавшегося резко поднять пакет за дно, но позволял свободно действовать, если захват был за верхнюю часть [32:54].

Интересно, что модель показала способность к обобщению: обучившись на красных Skittles, робот успешно справлялся с пакетами других цветов и в новых декорациях [34:15].

**«Грязное белье» (ограничения):**
Спикер честно рассказал о провалах. Система не справилась с упаковкой арахисовых M&M's, так как бумажный пакет и тяжелый вес конфет сильно отличались от динамики пластикового пакета Skittles, на котором шло обучение [35:35]. Также возникли проблемы с «невидимостью»: если повернуть пакет так, что дырка не видна камерам, робот считает его закрытым и совершает ошибку [35:07].

## 🤖 VLMs: Робот, который понимает контекст
[[JUMP:46:10]]

Вторая часть доклада была посвящена использованию больших мультимодальных моделей (VLM, таких как Llama 3.2 Vision) для адаптации правил безопасности под конкретный контекст [47:14].

Проблема в том, что «безопасность» субъективна. Например, сильно сжать пакет чипсов — это нормально, если вы делаете панировку, но плохо, если собираетесь их есть [46:49].

Исследователи предложили двухэтапный процесс «руления политикой» (policy steering):

1.  **Прогнозирование:** Модель мира генерирует несколько вариантов будущего развития событий в виде латентных траекторий.
2.  **Оценка:** Траектории переводятся в текстовое описание, которое анализирует VLM. Например: «Робот берет чашку за край, касаясь пальцами внутренней части» [51:51].

В эксперименте с подачей воды робот выбирал разные способы захвата чашки в зависимости от текстовой инструкции: «возьми за ручку» или «ручка в масле — возьми по-другому» [52:31]. Использование латентного пространства оказалось эффективнее, чем попытка заставить VLM анализировать сырое видео напрямую: специализированная модель мира лучше понимает физику движения, а VLM — высокоуровневые социальные нормы [55:38].