Как ИИ-модели мира обучают роботов не рассыпать конфеты и понимать контекст

На семинаре в Стэнфордском университете (Stanford University) обсуждалась одна из самых сложных проблем современной робототехники — обеспечение безопасности машин в непредсказуемом «открытом мире». Основной докладчик представил инновационный подход, объединяющий классическую теорию управления с современными генеративными моделями ИИ, чтобы научить роботов справляться с задачами, которые невозможно описать простыми формулами, например, не рассыпать конфеты из открытого пакета или подавать чашку воды, не касаясь её краев пальцами.

🛑 Почему «просто остановиться» — это не всегда безопасно 0:08

За последние десять лет робототехника совершила колоссальный скачок: от мучительных попыток заставить манипулятор просто поднять чашку до полностью беспилотных такси в центре Сан-Франциско . Однако широкое внедрение роботов в повседневную жизнь требует нового понимания безопасности, которое выходит далеко за рамки классического предотвращения столкновений.

Докладчик подчеркивает, что безопасность в открытом мире — это нюансированная концепция. В качестве примера приводится инцидент с автомобилем Tesla на мосту через залив Сан-Франциско :

Автопилот совершил резкое торможение («фантомное торможение») посреди оживленной трассы.
Это привело к массовому столкновению нескольких машин.
Парадокс заключается в том, что стандартная инструкция «в случае опасности — остановись» в данном контексте сама стала причиной аварии .

Таким образом, принятие решений роботом критически зависит от контекста. Безопасный робот должен уметь запрашивать помощь при неопределенности и понимать последствия своих действий, например, не предлагать положить металлическую миску в микроволновую печь .

⚙️ Классический контроль и его ограничения 3:16

Традиционно безопасность роботов базировалась на теории робастного управления и методе достижимости Гамильтона-Якоби (Hamilton-Jacobi reachability). В этой математической структуре безопасность означает удовлетворение заданных ограничений .

Классический «фильтр безопасности» состоит из четырех обязательных ингредиентов:

Пространство состояний: координаты, скорость, ориентация.
Модель динамической системы: описание того, как действия робота меняют его состояние.
Внешние возмущения: учет помех или действий других агентов.
Описание отказа: четко заданное подмножество пространства состояний, в которое роботу заходить нельзя .

Несмотря на математическую стройность, у этого подхода есть «ахиллесова пята»: он требует ручного проектирования моделей динамики и датчиков столкновений. По словам спикера, любой студент знает, как мучительно выписывать эти правила для сложных систем . Более того, классические методы почти всегда сводятся к предотвращению столкновений, но они бессильны, если нужно описать разлив жидкости, разрыв ткани или поломку хрупкого предмета .

🍬 Тест на Skittles: проблема неструктурированных объектов 12:48

Для иллюстрации проблемы сложности докладчик провел интерактивный опрос аудитории, используя пример с роботом-манипулятором и открытым пакетом конфет Skittles . Если робот резко дернет пакет за дно, конфеты рассыплются.

Спикер указал на трудности моделирования такой ситуации:

Состояние: нужно ли учитывать положение каждой конфеты, их цвет, деформацию пластикового пакета или вес содержимого? .
Динамика: моделирование динамики рассыпающихся конфет через физику жидкостей крайне трудозатратно и сложно.
Отказ: как математически описать «просыпание», если робот даже не видит конфеты, пока они внутри пакета? .

Вывод исследователей: необходимо уходить от ручного проектирования состояний к использованию латентных (скрытых) представлений, которые ИИ может выучить самостоятельно из видеоданных.

🧠 Безопасность в латентном пространстве «моделей мира» 16:39

Решение, предложенное группой докладчика, заключается в объединении теории управления с генеративными «моделями мира» (world models). Вместо того чтобы работать с пикселями или сложными физическими формулами, робот обучается в сжатом латентном пространстве .

Процесс обучения выглядит следующим образом:

Робот получает набор данных из пар «наблюдение — действие» (видео с камер и данные о движении манипулятора).
Обучается энкодер, сжимающий изображение в латентное состояние $z$.
Обучается модель динамики, которая предсказывает следующее состояние $z$ на основе текущего действия .
Классификатор отказов размечает латентные состояния как «безопасные» или «опасные» на основе визуальных признаков (например, когда конфеты уже видны на столе) .

Ключевая инновация — это «латентное уравнение Беллмана для безопасности». Робот в своем «воображении» проигрывает возможные сценарии будущего. Если он понимает, что любое его действие в ближайшие секунды приведет к рассыпанию конфет, он помечает текущее состояние как «обреченное» и активирует стратегию предотвращения .

📊 Эксперименты: от симуляций до реального железа 24:52

Эффективность метода была проверена как на стандартных тестах (модель автомобиля Дубинса), так и в реальных задачах манипуляции.

Результаты тестов:

В задаче с перемещением блоков робот успешно замедлялся или отъезжал назад, если риск опрокинуть красные (запретные) блоки становился слишком велик .
В эксперименте со Skittles система использовала 1300 траекторий для обучения, из которых 80% были чисто случайными движениями («болтанием») .
Фильтр безопасности успешно блокировал команды оператора, пытавшегося резко поднять пакет за дно, но позволял свободно действовать, если захват был за верхнюю часть .

Интересно, что модель показала способность к обобщению: обучившись на красных Skittles, робот успешно справлялся с пакетами других цветов и в новых декорациях .

«Грязное белье» (ограничения): Спикер честно рассказал о провалах. Система не справилась с упаковкой арахисовых M&M's, так как бумажный пакет и тяжелый вес конфет сильно отличались от динамики пластикового пакета Skittles, на котором шло обучение . Также возникли проблемы с «невидимостью»: если повернуть пакет так, что дырка не видна камерам, робот считает его закрытым и совершает ошибку .

🤖 VLMs: Робот, который понимает контекст 46:10

Вторая часть доклада была посвящена использованию больших мультимодальных моделей (VLM, таких как Llama 3.2 Vision) для адаптации правил безопасности под конкретный контекст .

Проблема в том, что «безопасность» субъективна. Например, сильно сжать пакет чипсов — это нормально, если вы делаете панировку, но плохо, если собираетесь их есть .

Исследователи предложили двухэтапный процесс «руления политикой» (policy steering):

Прогнозирование: Модель мира генерирует несколько вариантов будущего развития событий в виде латентных траекторий.
Оценка: Траектории переводятся в текстовое описание, которое анализирует VLM. Например: «Робот берет чашку за край, касаясь пальцами внутренней части» .

В эксперименте с подачей воды робот выбирал разные способы захвата чашки в зависимости от текстовой инструкции: «возьми за ручку» или «ручка в масле — возьми по-другому» . Использование латентного пространства оказалось эффективнее, чем попытка заставить VLM анализировать сырое видео напрямую: специализированная модель мира лучше понимает физику движения, а VLM — высокоуровневые социальные нормы .