Боюань Чэнь: «Роботы должны чувствовать мир так же, как младенцы»

В современном мире искусственного интеллекта основное внимание уделяется «мозгу» — алгоритмам обработки текста и изображений. Однако Боюань Чэнь из Университета Дьюка утверждает, что настоящая разумность невозможна без тела и физического взаимодействия с миром. В рамках семинара в Стэнфорде он представил концепцию «Дуги воплощенного интеллекта», которая описывает эволюцию машин от базового восприятия до сложной социальной интеграции.

🌀 Дуга воплощенного интеллекта: от младенца до ученого 0:09

Боюань Чэнь, руководитель General Robotics Lab в Университете Дьюка, строит свою работу на идее, что интеллект не возникает изолированно . Он опирается на теорию когнитивного развития Жана Пиаже, согласно которой дети проходят через несколько стадий, чтобы понять мир: от простых моторных команд до сложной логики и социального взаимодействия .

Исследователь выделяет три ключевых этапа развития «воплощенного» (embodied) интеллекта:

Sensing (Ощущение): Первое, что делает новорожденный — это начинает чувствовать среду (свет, запахи, прикосновения, вкусы).
Adapt (Адаптация): Способность понимать свои моторные команды и адаптироваться к изменениям. По мнению Чэня, это «Святой Грааль» робототехники — создание у машин чувства собственного «я» .
Connect (Связь): Переход к взаимодействию с другими агентами и людьми, превращение робота в партнера и члена команды .

Этот подход дополняет классическую схему робототехники «чувствуй — планируй — действуй», добавляя в неё мета-уровень развития и отношений .

👂 Слух и обоняние: роботы учатся чувствовать без глаз 4:15

Большинство современных роботов полагаются на зрение, но Чэнь демонстрирует, что другие модальности могут быть не менее эффективными.

SonicSense: Искусство вибраций

Проект SonicSense представляет собой роботизированную руку, оснащенную четырьмя контактными микрофонами в кончиках пальцев — такими же, какие используются для записи гитар .

Технология: Вместо видеокамер робот использует вибрации при постукивании.
Возможности: Робот может определить количество воды в контейнере, число костей в стакане и даже количество граней у этих костей, просто встряхивая их .
Точность: После сканирования 83 различных объектов с использованием простого алгоритма «голосования большинством» система почти безошибочно определяет материал (стекло, дерево, керамика) .
Реконструкция: На основе только вибраций от контактов система способна восстановить полную 3D-форму объекта, которого она никогда не «видела» раньше .

Scensory: Робот-ищейка для грибка

Еще одна важная модальность — обоняние. В кампусе Университета Дьюка исследователи обнаружили, что разные комнаты пахнут по-разному из-за грибков и микробов, которые могут влиять на здоровье людей .

Традиционные методы (ДНК-секвенирование) занимают недели и стоят дорого. Чэнь предложил использовать массив дешевых датчиков летучих органических соединений (VOC), общая стоимость которых не превышает $100 .

Скорость: Традиционный анализ требует недель, Scensory справляется за 7 секунд .
Применение: Робот входит в помещение, сканирует среду и находит источник грибка, определяя его вид по «запаховому отпечатку» .

🌲 Роботы в дикой природе: мультимодальное восприятие 14:07

Когда робот выходит из лаборатории в лес (например, в парк Ино-Ривер), лабораторные предположения перестают работать: свет меняется, тени падают непредсказуемо, появляются препятствия .

Команда Чэня оснастила четвероногого робота контактными микрофонами на ногах за $15 с Amazon . Это позволяет роботу буквально «слышать» поверхность:

Непрерывная проходимость (Continuous traversability): Вместо бинарной оценки «пройду / не пройду» робот выставляет себе оценку стабильности .
Сенсорный синтез: Система объединяет данные LiDAR, камер, микрофонов и акселерометров (IMU).
Преодоление препятствий: Если обычная карта высот говорит роботу остановиться перед высокой травой, «слух» подсказывает, что трава мягкая и через неё можно пройти .

Чэнь утверждает, что обучение модели предсказывать все параметры сразу (цвет, семантику, проходимость) дает лучший результат, чем обучение каждой задаче по отдельности .

🔄 «Сшивание» политик и чувство собственного тела 20:13

Одной из самых сложных задач является адаптация. Чэнь полагает, что роботам нужно «чувство себя» (sense of self), чтобы не переучиваться при каждом изменении среды или собственного тела .

Моторный лепет (Motor Babbling)

Подобно младенцам, роботы Чэня начинают с хаотичного движения конечностями под наблюдением нескольких камер . Это позволяет им выучить свою морфологию без предварительного программирования длины конечностей или расположения моторов. Если роботу обрезать кабель или изменить деталь тела, он заметит разницу всего за 50 примеров и сможет адаптировать свою модель «я» .

Policy Stitching (Сшивание стратегий)

Чэнь ставит амбициозную цель: возможность «скачать» навык одного робота и применить его на другом, даже если у них разные тела .

Проблема: Разные роботы «говорят» на разных нейронных языках.
Решение: Метод относительного представления (relative representation). Исследователи обнаружили, что латентные пространства разных моделей изоморфны (их можно повернуть и совместить) .
Результат: Робот с одной конструкцией может успешно использовать «знания» робота с другой конструкцией для выполнения задачи (например, толкания объекта), просто «сшивая» их нейронные модули .

🛠️ Text2Robot: Генерация тел из текста 35:44

Чэнь задается вопросом: можем ли мы автоматизировать проектирование самих роботов? Проект Text2Robot позволяет пользователю просто напечатать описание .

Пример: «Робот-лягушка, который бегает как можно быстрее» или «Робот-ботинок, экономящий энергию» .
Механизм: Генеративная модель создает 3D-сетку, которая затем «нарезается» алгоритмами для определения мест установки моторов и электроники.
Эволюция: Система прогоняет тысячи вариаций в симуляции, выбирая лучшие формы для конкретных задач (например, длинные ноги для скорости или короткие для экономии энергии) .
Сборка: Полученный дизайн печатается на 3D-принтере и собирается без единого винта за 10 минут .

Интересный вывод Чэня: использование природных форм (лягушка, гепард) в качестве стартовой точки для ИИ дает гораздо лучшие результаты, чем случайная комбинация геометрических примитивов .

🕷️ Аргус и предельная симметрия 42:39

Вдохновляясь природой, команда создала робота Argus с 20 ногами и полной осевой симметрией .

Философия: Симметрия — это фундаментальный принцип жизни (от семян до вирусов). Чэнь решил довести его до крайности .
Возможности: Робот обладает избыточностью — он может продолжать идти, даже если 10% его ног выйдут из строя .
Сенсорика: На каждой ноге установлена камера (Time-of-Flight сенсор), что дает обзор на 360 градусов .
Результаты: Argus может карабкаться между стен в условиях гравитации Марса или Луны и стабильно переносить грузы, мгновенно адаптируясь к возмущениям .

👥 Человек и ИИ: командная работа 46:16

В финале Чэнь представил платформу CREW для изучения взаимодействия человека с сотнями агентов ИИ одновременно .

Обратная связь: Используя алгоритмы обучения с подкреплением, роботы учатся на основе простых движений мыши человека (хорошо/плохо). 10 минут такой обратной связи достаточно для индивидуализации контроллера .
Коллективный разум: Один человек («тренер») может обучить группу роботов-преследователей сложным тактикам, таким как засада или окружение, без явного математического описания этих маневров .
Прогноз на будущее: Чэнь полагает, что роботы будущего сами будут выбирать свою форму для задач, эффективно объединяться в команды и даже ускорять научные открытия, открывая фундаментальные законы природы через наблюдение за сложными системами .

На вопрос о том, вытеснят ли гуманоиды все остальные формы роботов, Чэнь ответил скептически. По его мнению, гуманоиды — это важная научная площадка, но для домашних задач финальная форма робота, скорее всего, не будет человекоподобной; она должна определяться эффективностью выполнения задач, а не сходством с создателем .