Боюань Чэнь: «Роботы должны чувствовать мир так же, как младенцы»

Stanford Online 5,7 тыс. 1 ч 5 мин 6 мин 09.07.2025
Главное

В современном мире искусственного интеллекта основное внимание уделяется «мозгу» — алгоритмам обработки текста и изображений. Однако Боюань Чэнь из Университета Дьюка утверждает, что настоящая разумность невозможна без тела и физического взаимодействия с миром. В рамках семинара в Стэнфорде он представил концепцию «Дуги воплощенного интеллекта», которая описывает эволюцию машин от базового восприятия до сложной социальной интеграции.

🌀 Дуга воплощенного интеллекта: от младенца до ученого 0:09

Боюань Чэнь, руководитель General Robotics Lab в Университете Дьюка, строит свою работу на идее, что интеллект не возникает изолированно . Он опирается на теорию когнитивного развития Жана Пиаже, согласно которой дети проходят через несколько стадий, чтобы понять мир: от простых моторных команд до сложной логики и социального взаимодействия .

Исследователь выделяет три ключевых этапа развития «воплощенного» (embodied) интеллекта:

Этот подход дополняет классическую схему робототехники «чувствуй — планируй — действуй», добавляя в неё мета-уровень развития и отношений .

👂 Слух и обоняние: роботы учатся чувствовать без глаз 4:15

Большинство современных роботов полагаются на зрение, но Чэнь демонстрирует, что другие модальности могут быть не менее эффективными.

SonicSense: Искусство вибраций

Проект SonicSense представляет собой роботизированную руку, оснащенную четырьмя контактными микрофонами в кончиках пальцев — такими же, какие используются для записи гитар .

Scensory: Робот-ищейка для грибка

Еще одна важная модальность — обоняние. В кампусе Университета Дьюка исследователи обнаружили, что разные комнаты пахнут по-разному из-за грибков и микробов, которые могут влиять на здоровье людей .

Традиционные методы (ДНК-секвенирование) занимают недели и стоят дорого. Чэнь предложил использовать массив дешевых датчиков летучих органических соединений (VOC), общая стоимость которых не превышает $100 .

🌲 Роботы в дикой природе: мультимодальное восприятие 14:07

Когда робот выходит из лаборатории в лес (например, в парк Ино-Ривер), лабораторные предположения перестают работать: свет меняется, тени падают непредсказуемо, появляются препятствия .

Команда Чэня оснастила четвероногого робота контактными микрофонами на ногах за $15 с Amazon . Это позволяет роботу буквально «слышать» поверхность:

  1. Непрерывная проходимость (Continuous traversability): Вместо бинарной оценки «пройду / не пройду» робот выставляет себе оценку стабильности .
  2. Сенсорный синтез: Система объединяет данные LiDAR, камер, микрофонов и акселерометров (IMU).
  3. Преодоление препятствий: Если обычная карта высот говорит роботу остановиться перед высокой травой, «слух» подсказывает, что трава мягкая и через неё можно пройти .

Чэнь утверждает, что обучение модели предсказывать все параметры сразу (цвет, семантику, проходимость) дает лучший результат, чем обучение каждой задаче по отдельности .

🔄 «Сшивание» политик и чувство собственного тела 20:13

Одной из самых сложных задач является адаптация. Чэнь полагает, что роботам нужно «чувство себя» (sense of self), чтобы не переучиваться при каждом изменении среды или собственного тела .

Моторный лепет (Motor Babbling)

Подобно младенцам, роботы Чэня начинают с хаотичного движения конечностями под наблюдением нескольких камер . Это позволяет им выучить свою морфологию без предварительного программирования длины конечностей или расположения моторов. Если роботу обрезать кабель или изменить деталь тела, он заметит разницу всего за 50 примеров и сможет адаптировать свою модель «я» .

Policy Stitching (Сшивание стратегий)

Чэнь ставит амбициозную цель: возможность «скачать» навык одного робота и применить его на другом, даже если у них разные тела .

🛠️ Text2Robot: Генерация тел из текста 35:44

Чэнь задается вопросом: можем ли мы автоматизировать проектирование самих роботов? Проект Text2Robot позволяет пользователю просто напечатать описание .

Интересный вывод Чэня: использование природных форм (лягушка, гепард) в качестве стартовой точки для ИИ дает гораздо лучшие результаты, чем случайная комбинация геометрических примитивов .

🕷️ Аргус и предельная симметрия 42:39

Вдохновляясь природой, команда создала робота Argus с 20 ногами и полной осевой симметрией .

👥 Человек и ИИ: командная работа 46:16

В финале Чэнь представил платформу CREW для изучения взаимодействия человека с сотнями агентов ИИ одновременно .

На вопрос о том, вытеснят ли гуманоиды все остальные формы роботов, Чэнь ответил скептически. По его мнению, гуманоиды — это важная научная площадка, но для домашних задач финальная форма робота, скорее всего, не будет человекоподобной; она должна определяться эффективностью выполнения задач, а не сходством с создателем .

💬 Цитаты

«Для меня Святой Грааль робототехники — это адаптация машин через чувство собственного «я».»

Боюань Чэнь 02:32

«Мой прогноз: финальная форма робота, который будет у нас дома, не будет гуманоидом.»

Боюань Чэнь 56:04
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Воплощенный интеллект (Embodied AI)
Концепция в ИИ, согласно которой разум неразрывно связан с физическим телом и взаимодействием с окружающей средой.
Моторный лепет (Motor Babbling)
Стадия развития, на которой робот или младенец совершает хаотичные движения для изучения возможностей своего тела.
Латентное пространство
Скрытое математическое представление данных внутри нейросети, где похожие объекты располагаются близко друг к другу.
📊 Цифры
🗓 Хронология
  1. 2021 Основание General Robotics Lab в Университете Дьюка.
  2. 2022 Начало экспериментов с самомоделированием роботов и восстановлением после повреждений.
  3. 2024 Представление проектов Argus и Scensory.
⚖️ Другая сторона
Инженерия Боюань Чэнь Embodied AI Text2Robot Duke University SonicSense