Ловкость рук: как Стэндфорд учит роботов чувствовать мир через оптические датчики

Современные человекоподобные роботы впечатляют публику сальто назад и бегом по пересеченной местности, однако их руки остаются на удивление «неуклюжими». Пока одни инженеры соревнуются в акробатике машин, лаборатория ARM Стэндфордского университета (Stanford University) фокусируется на фундаментальной проблеме: как заставить робота манипулировать объектами с человеческой ловкостью и точностью.

🤖 Проблема «неуклюжих рук» и три «Г» робототехники 0:10

Несмотря на обилие видео с гуманоидами, большинство современных манипуляторов работают крайне осторожно и нерешительно . На крупнейших конференциях, таких как ICRA или IROS, роботов часто показывают в роли боксеров не из-за их агрессивности, а потому, что сжатие руки в кулак — это чуть ли не единственное, что современные конечности делают хорошо . Как отмечает спикер Stanford Online, настоящий вызов заключается не в ударе, а в способности поднять и удержать предмет.

Традиционно миссия робототехники описывается концепцией «трех Г» (в английском варианте — три D): роботы должны брать на себя задачи, которые для людей являются:

Грязными (Dirty);
Грустными/скучными (Dull);
Грозными/опасными (Dangerous) .

Спикер подчеркивает, что во время пандемий роботы могли бы спасать жизни, заменяя врачей в «красных зонах». Более того, от машин ожидают «сверхчеловеческих» способностей: точности, скорости и отсутствия усталости . В качестве идеала приводится персонаж Дейта из сериала «Звёздный путь: Следующее поколение», демонстрирующий невероятную скорость и координацию рук .

📦 Экономический запрос: Amazon и сельское хозяйство 3:28

Потребность в продвинутой манипуляции диктуется рынком:

Логистика: Amazon доставляет 16 миллионов посылок в день. Роботы справляются примерно с 75% заказов, но оставшиеся 5 миллионов посылок ежедневно обрабатываются людьми, так как машины не могут справиться с их формой или хрупкостью .
Сельское хозяйство: Более 2,6 миллионов рабочих заняты сбором урожая в тяжелых условиях . Современные агро-роботы слишком специализированы: они могут собирать только один вид культуры и не обладают универсальностью .
Помощь пожилым: В США более 1,5 миллиона человек страдают от артрита. Роботы, способные помочь в быту (приготовление еды, уборка), могли бы обеспечить людям независимость .

Спикер отмечает, что даже в высокотехнологичной сборке смартфонов (например, на заводах Samsung) роботы выполняют пайку, но сложную манипуляцию деталями всё равно производят люди, так как линии сборки должны быстро адаптироваться к новым моделям .

🖐️ Почему присоски — это тупик 9:01

В робототехнике существует два фундаментальных способа захвата:

Геометрическое замыкание (Form closure): когда пальцы полностью окружают объект .
Силовое замыкание (Force closure): удержание за счет силы трения и нормального давления .

Многие компании, включая Amazon, сделали ставку на вакуумные присоски. Однако спикер утверждает, что «вакуум отстой» (suction sucks) в профессиональном смысле: он бесполезен, если предмет имеет отверстия, слишком мал, слишком мягок (ткань) или имеет сложную текстуру . Робот Sparrow от Amazon впечатляет, но он работает только с объектами, имеющими подходящую для присосок поверхность .

👁️ Осязание против зрения: эксперимент с анестезией 18:01

Один из ключевых тезисов лекции: одного зрения для сложной манипуляции недостаточно. Спикер ссылается на исследование 2005 года, в котором участникам анестезировали кончики пальцев . Несмотря на то что испытуемые прекрасно видели предметы (например, спички), задача зажечь спичку занимала у них в разы больше времени, чем с работающим чувством осязания .

Человеческий палец оснащен четырьмя типами механорецепторов, которые передают данные о:

Высокочастотных и низкочастотных прикосновениях;
Вибрации;
Температуре .

Для роботов осязание критически важно при работе в условиях окклюзии (когда рука закрывает предмет от камеры). Например, чтобы развязать узел на шнурках, нужно чувствовать, какая нить натянута сильнее, а не просто смотреть на них .

📸 Решение Stanford ARM Lab: оптико-тактильные датчики 28:10

Лаборатория ARM разработала датчики серии DensoTact и TensorTouch. Их принцип работы объединяет компьютерное зрение и мягкую робототехнику:

Внутри пальца находится камера с объективом «рыбий глаз» и светодиоды .
Поверхность покрыта мягким эластомером.
Когда робот касается предмета, гель деформируется. Камера фиксирует смещение маркеров на внутренней стороне геля .
Нейросеть мгновенно пересчитывает эти искажения в карту давлений и векторов сил .

Инновация Стэндфордской команды заключается в калибровке. Спикер подчеркивает: если мы создадим «общий метрический язык» сил и положений, то неважно, как выглядит рука робота . Данные, собранные человеком в тактильной перчатке, можно напрямую перенести на робота, потому что оба оперируют одними и теми же физическими величинами (ньютонами и миллиметрами).

С помощью этой технологии роботы ARM Lab уже могут:

Сортировать винты в чаше, определяя их тип на ощупь с точностью до резьбы .
Манипулировать мягкими ягодами (клубникой, ежевикой), не повреждая их .
Определять количество слоев тончайшей шелковой ткани, просто потирая её .

🧠 Ограничения ИИ и проблема «мировых моделей» 40:16

Спикер критически оценивает хайп вокруг VLA-моделей (Vision-Language-Action). Исследования лаборатории показали, что такие модели хорошо работают внутри одной задачи (успешность до 96%), но их эффективность падает практически до нуля при попытке перенести навык в новую среду или на другой тип задач .

Другая проблема — отсутствие у роботов «мировых моделей» (world models). Когда человек открывает дверь, он заранее ожидает, что она не заперта, и прикладывает определенную силу. Если дверь заперта, мы мгновенно корректируем поведение . Роботам сложно передать это «предзнание». Спикер утверждает, что обучение через имитацию (imitation learning) дает доступ к действиям человека, но не к его ожиданиям .

📐 Математика спасения: алгоритм J-PARSE 47:00

Одной из самых сложных технических проблем является управление роботом в «сингулярных позах» — например, когда рука полностью вытянута. В таких точках стандартные математические методы (Якобианы) приводят к делению на ноль, и робот либо замирает, либо начинает совершать хаотичные движения .

Для решения этой задачи в лаборатории был создан алгоритм J-PARSE:

Он вводит понятие «безопасного Якобиана», который не позволяет математической модели «схлопываться» .
Алгоритм разделяет команды на выполнимые и сингулярные, масштабируя последние так, чтобы робот мог плавно выйти из полностью вытянутого состояния .
Это позволяет манипуляторам работать на самой границе своей зоны досягаемости, что раньше было невозможно .

❓ Вопросы и перспективы: должна ли рука быть похожа на человеческую? 1:00:10

В ходе дискуссии был поднят вопрос об антропоморфности. Спикер считает, что строгой необходимости копировать человеческую руку нет . Однако человекоподобная форма дает два преимущества:

Скорость обучения: роботу проще копировать движения учителя-человека .
Совместимость со средой: наш мир (дверные ручки, инструменты, заводы) спроектирован под человеческую руку. Слишком большие или странные манипуляторы просто не влезут в узкие пространства, где работают техники .

В будущем спикер видит необходимость создания единого бенчмарка: человек в полном сенсорном обмундировании должен собрать базу данных «эталонного выполнения задач» (сбор клубники, завязывание шнурков) . Пока робот не сможет повторить это с той же статистической надежностью, мы не сможем сказать, что проблема манипуляции решена .