Современные человекоподобные роботы впечатляют публику сальто назад и бегом по пересеченной местности, однако их руки остаются на удивление «неуклюжими». Пока одни инженеры соревнуются в акробатике машин, лаборатория ARM Стэндфордского университета (Stanford University) фокусируется на фундаментальной проблеме: как заставить робота манипулировать объектами с человеческой ловкостью и точностью.
🤖 Проблема «неуклюжих рук» и три «Г» робототехники 0:10
Несмотря на обилие видео с гуманоидами, большинство современных манипуляторов работают крайне осторожно и нерешительно . На крупнейших конференциях, таких как ICRA или IROS, роботов часто показывают в роли боксеров не из-за их агрессивности, а потому, что сжатие руки в кулак — это чуть ли не единственное, что современные конечности делают хорошо . Как отмечает спикер Stanford Online, настоящий вызов заключается не в ударе, а в способности поднять и удержать предмет.
Традиционно миссия робототехники описывается концепцией «трех Г» (в английском варианте — три D): роботы должны брать на себя задачи, которые для людей являются:
Спикер подчеркивает, что во время пандемий роботы могли бы спасать жизни, заменяя врачей в «красных зонах». Более того, от машин ожидают «сверхчеловеческих» способностей: точности, скорости и отсутствия усталости . В качестве идеала приводится персонаж Дейта из сериала «Звёздный путь: Следующее поколение», демонстрирующий невероятную скорость и координацию рук .
📦 Экономический запрос: Amazon и сельское хозяйство 3:28
Потребность в продвинутой манипуляции диктуется рынком:
- Логистика: Amazon доставляет 16 миллионов посылок в день. Роботы справляются примерно с 75% заказов, но оставшиеся 5 миллионов посылок ежедневно обрабатываются людьми, так как машины не могут справиться с их формой или хрупкостью .
- Сельское хозяйство: Более 2,6 миллионов рабочих заняты сбором урожая в тяжелых условиях . Современные агро-роботы слишком специализированы: они могут собирать только один вид культуры и не обладают универсальностью .
- Помощь пожилым: В США более 1,5 миллиона человек страдают от артрита. Роботы, способные помочь в быту (приготовление еды, уборка), могли бы обеспечить людям независимость .
Спикер отмечает, что даже в высокотехнологичной сборке смартфонов (например, на заводах Samsung) роботы выполняют пайку, но сложную манипуляцию деталями всё равно производят люди, так как линии сборки должны быстро адаптироваться к новым моделям .
🖐️ Почему присоски — это тупик 9:01
В робототехнике существует два фундаментальных способа захвата:
- Геометрическое замыкание (Form closure): когда пальцы полностью окружают объект .
- Силовое замыкание (Force closure): удержание за счет силы трения и нормального давления .
Многие компании, включая Amazon, сделали ставку на вакуумные присоски. Однако спикер утверждает, что «вакуум отстой» (suction sucks) в профессиональном смысле: он бесполезен, если предмет имеет отверстия, слишком мал, слишком мягок (ткань) или имеет сложную текстуру . Робот Sparrow от Amazon впечатляет, но он работает только с объектами, имеющими подходящую для присосок поверхность .
👁️ Осязание против зрения: эксперимент с анестезией 18:01
Один из ключевых тезисов лекции: одного зрения для сложной манипуляции недостаточно. Спикер ссылается на исследование 2005 года, в котором участникам анестезировали кончики пальцев . Несмотря на то что испытуемые прекрасно видели предметы (например, спички), задача зажечь спичку занимала у них в разы больше времени, чем с работающим чувством осязания .
Человеческий палец оснащен четырьмя типами механорецепторов, которые передают данные о:
Для роботов осязание критически важно при работе в условиях окклюзии (когда рука закрывает предмет от камеры). Например, чтобы развязать узел на шнурках, нужно чувствовать, какая нить натянута сильнее, а не просто смотреть на них .
📸 Решение Stanford ARM Lab: оптико-тактильные датчики 28:10
Лаборатория ARM разработала датчики серии DensoTact и TensorTouch. Их принцип работы объединяет компьютерное зрение и мягкую робототехнику:
- Внутри пальца находится камера с объективом «рыбий глаз» и светодиоды .
- Поверхность покрыта мягким эластомером.
- Когда робот касается предмета, гель деформируется. Камера фиксирует смещение маркеров на внутренней стороне геля .
- Нейросеть мгновенно пересчитывает эти искажения в карту давлений и векторов сил .
Инновация Стэндфордской команды заключается в калибровке. Спикер подчеркивает: если мы создадим «общий метрический язык» сил и положений, то неважно, как выглядит рука робота . Данные, собранные человеком в тактильной перчатке, можно напрямую перенести на робота, потому что оба оперируют одними и теми же физическими величинами (ньютонами и миллиметрами).
С помощью этой технологии роботы ARM Lab уже могут:
- Сортировать винты в чаше, определяя их тип на ощупь с точностью до резьбы .
- Манипулировать мягкими ягодами (клубникой, ежевикой), не повреждая их .
- Определять количество слоев тончайшей шелковой ткани, просто потирая её .
🧠 Ограничения ИИ и проблема «мировых моделей» 40:16
Спикер критически оценивает хайп вокруг VLA-моделей (Vision-Language-Action). Исследования лаборатории показали, что такие модели хорошо работают внутри одной задачи (успешность до 96%), но их эффективность падает практически до нуля при попытке перенести навык в новую среду или на другой тип задач .
Другая проблема — отсутствие у роботов «мировых моделей» (world models). Когда человек открывает дверь, он заранее ожидает, что она не заперта, и прикладывает определенную силу. Если дверь заперта, мы мгновенно корректируем поведение . Роботам сложно передать это «предзнание». Спикер утверждает, что обучение через имитацию (imitation learning) дает доступ к действиям человека, но не к его ожиданиям .
📐 Математика спасения: алгоритм J-PARSE 47:00
Одной из самых сложных технических проблем является управление роботом в «сингулярных позах» — например, когда рука полностью вытянута. В таких точках стандартные математические методы (Якобианы) приводят к делению на ноль, и робот либо замирает, либо начинает совершать хаотичные движения .
Для решения этой задачи в лаборатории был создан алгоритм J-PARSE:
- Он вводит понятие «безопасного Якобиана», который не позволяет математической модели «схлопываться» .
- Алгоритм разделяет команды на выполнимые и сингулярные, масштабируя последние так, чтобы робот мог плавно выйти из полностью вытянутого состояния .
- Это позволяет манипуляторам работать на самой границе своей зоны досягаемости, что раньше было невозможно .
❓ Вопросы и перспективы: должна ли рука быть похожа на человеческую? 1:00:10
В ходе дискуссии был поднят вопрос об антропоморфности. Спикер считает, что строгой необходимости копировать человеческую руку нет . Однако человекоподобная форма дает два преимущества:
- Скорость обучения: роботу проще копировать движения учителя-человека .
- Совместимость со средой: наш мир (дверные ручки, инструменты, заводы) спроектирован под человеческую руку. Слишком большие или странные манипуляторы просто не влезут в узкие пространства, где работают техники .
В будущем спикер видит необходимость создания единого бенчмарка: человек в полном сенсорном обмундировании должен собрать базу данных «эталонного выполнения задач» (сбор клубники, завязывание шнурков) . Пока робот не сможет повторить это с той же статистической надежностью, мы не сможем сказать, что проблема манипуляции решена .