Ловкость рук: как Стэндфорд учит роботов чувствовать мир через оптические датчики

Stanford Online 6,1 тыс. 1 ч 9 мин 5 мин 11.12.2025
Главное

Современные человекоподобные роботы впечатляют публику сальто назад и бегом по пересеченной местности, однако их руки остаются на удивление «неуклюжими». Пока одни инженеры соревнуются в акробатике машин, лаборатория ARM Стэндфордского университета (Stanford University) фокусируется на фундаментальной проблеме: как заставить робота манипулировать объектами с человеческой ловкостью и точностью.

🤖 Проблема «неуклюжих рук» и три «Г» робототехники 0:10

Несмотря на обилие видео с гуманоидами, большинство современных манипуляторов работают крайне осторожно и нерешительно . На крупнейших конференциях, таких как ICRA или IROS, роботов часто показывают в роли боксеров не из-за их агрессивности, а потому, что сжатие руки в кулак — это чуть ли не единственное, что современные конечности делают хорошо . Как отмечает спикер Stanford Online, настоящий вызов заключается не в ударе, а в способности поднять и удержать предмет.

Традиционно миссия робототехники описывается концепцией «трех Г» (в английском варианте — три D): роботы должны брать на себя задачи, которые для людей являются:

Спикер подчеркивает, что во время пандемий роботы могли бы спасать жизни, заменяя врачей в «красных зонах». Более того, от машин ожидают «сверхчеловеческих» способностей: точности, скорости и отсутствия усталости . В качестве идеала приводится персонаж Дейта из сериала «Звёздный путь: Следующее поколение», демонстрирующий невероятную скорость и координацию рук .

📦 Экономический запрос: Amazon и сельское хозяйство 3:28

Потребность в продвинутой манипуляции диктуется рынком:

Спикер отмечает, что даже в высокотехнологичной сборке смартфонов (например, на заводах Samsung) роботы выполняют пайку, но сложную манипуляцию деталями всё равно производят люди, так как линии сборки должны быстро адаптироваться к новым моделям .

🖐️ Почему присоски — это тупик 9:01

В робототехнике существует два фундаментальных способа захвата:

  1. Геометрическое замыкание (Form closure): когда пальцы полностью окружают объект .
  2. Силовое замыкание (Force closure): удержание за счет силы трения и нормального давления .

Многие компании, включая Amazon, сделали ставку на вакуумные присоски. Однако спикер утверждает, что «вакуум отстой» (suction sucks) в профессиональном смысле: он бесполезен, если предмет имеет отверстия, слишком мал, слишком мягок (ткань) или имеет сложную текстуру . Робот Sparrow от Amazon впечатляет, но он работает только с объектами, имеющими подходящую для присосок поверхность .

👁️ Осязание против зрения: эксперимент с анестезией 18:01

Один из ключевых тезисов лекции: одного зрения для сложной манипуляции недостаточно. Спикер ссылается на исследование 2005 года, в котором участникам анестезировали кончики пальцев . Несмотря на то что испытуемые прекрасно видели предметы (например, спички), задача зажечь спичку занимала у них в разы больше времени, чем с работающим чувством осязания .

Человеческий палец оснащен четырьмя типами механорецепторов, которые передают данные о:

Для роботов осязание критически важно при работе в условиях окклюзии (когда рука закрывает предмет от камеры). Например, чтобы развязать узел на шнурках, нужно чувствовать, какая нить натянута сильнее, а не просто смотреть на них .

📸 Решение Stanford ARM Lab: оптико-тактильные датчики 28:10

Лаборатория ARM разработала датчики серии DensoTact и TensorTouch. Их принцип работы объединяет компьютерное зрение и мягкую робототехнику:

Инновация Стэндфордской команды заключается в калибровке. Спикер подчеркивает: если мы создадим «общий метрический язык» сил и положений, то неважно, как выглядит рука робота . Данные, собранные человеком в тактильной перчатке, можно напрямую перенести на робота, потому что оба оперируют одними и теми же физическими величинами (ньютонами и миллиметрами).

С помощью этой технологии роботы ARM Lab уже могут:

  1. Сортировать винты в чаше, определяя их тип на ощупь с точностью до резьбы .
  2. Манипулировать мягкими ягодами (клубникой, ежевикой), не повреждая их .
  3. Определять количество слоев тончайшей шелковой ткани, просто потирая её .

🧠 Ограничения ИИ и проблема «мировых моделей» 40:16

Спикер критически оценивает хайп вокруг VLA-моделей (Vision-Language-Action). Исследования лаборатории показали, что такие модели хорошо работают внутри одной задачи (успешность до 96%), но их эффективность падает практически до нуля при попытке перенести навык в новую среду или на другой тип задач .

Другая проблема — отсутствие у роботов «мировых моделей» (world models). Когда человек открывает дверь, он заранее ожидает, что она не заперта, и прикладывает определенную силу. Если дверь заперта, мы мгновенно корректируем поведение . Роботам сложно передать это «предзнание». Спикер утверждает, что обучение через имитацию (imitation learning) дает доступ к действиям человека, но не к его ожиданиям .

📐 Математика спасения: алгоритм J-PARSE 47:00

Одной из самых сложных технических проблем является управление роботом в «сингулярных позах» — например, когда рука полностью вытянута. В таких точках стандартные математические методы (Якобианы) приводят к делению на ноль, и робот либо замирает, либо начинает совершать хаотичные движения .

Для решения этой задачи в лаборатории был создан алгоритм J-PARSE:

❓ Вопросы и перспективы: должна ли рука быть похожа на человеческую? 1:00:10

В ходе дискуссии был поднят вопрос об антропоморфности. Спикер считает, что строгой необходимости копировать человеческую руку нет . Однако человекоподобная форма дает два преимущества:

  1. Скорость обучения: роботу проще копировать движения учителя-человека .
  2. Совместимость со средой: наш мир (дверные ручки, инструменты, заводы) спроектирован под человеческую руку. Слишком большие или странные манипуляторы просто не влезут в узкие пространства, где работают техники .

В будущем спикер видит необходимость создания единого бенчмарка: человек в полном сенсорном обмундировании должен собрать базу данных «эталонного выполнения задач» (сбор клубники, завязывание шнурков) . Пока робот не сможет повторить это с той же статистической надежностью, мы не сможем сказать, что проблема манипуляции решена .

💬 Цитаты

«Существует три «Г» робототехники: мы должны брать на себя то, что для людей является Грязным, Грустным и Грозным.»

Представитель ARM Lab 02:10

«Вакуумные присоски отстой, потому что они пасуют перед тканью, мелкими деталями или предметами с дырками.»

Представитель ARM Lab 10:47
👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Якобиан
Математическая матрица, связывающая скорости движения суставов робота со скоростью движения его кисти в пространстве.
Сингулярность
Положение робота (обычно полностью вытянутая рука), в котором он теряет способность двигаться в определенных направлениях из-за математического вырождения.
VLA-модели
Нейросети, объединяющие зрение, язык и действия для управления роботом через текстовые подсказки.
📊 Цифры
🗓 Хронология
  1. 1962 Выход мультсериала «Джетсоны», предсказавшего домашних роботов-помощников.
  2. 2005 Исследование влияния тактильной чувствительности (анестезия пальцев) на способность выполнять задачи.
  3. 2025 Текущий семинар в Стэндфорде, представляющий новое поколение тактильных датчиков.
⚖️ Другая сторона
Инженерия Stanford University DensoTact J-PARSE оптико-тактильные датчики антропоморфные роботы