# Боюань Чэнь: «Роботы должны чувствовать мир так же, как младенцы»

Источник: https://www.youtube.com/watch?v=HxZ43iZD9_0
Канал: Stanford Online
Опубликовано: 09.07.2025

---

В современном мире искусственного интеллекта основное внимание уделяется «мозгу» — алгоритмам обработки текста и изображений. Однако Боюань Чэнь из Университета Дьюка утверждает, что настоящая разумность невозможна без тела и физического взаимодействия с миром. В рамках семинара в Стэнфорде он представил концепцию «Дуги воплощенного интеллекта», которая описывает эволюцию машин от базового восприятия до сложной социальной интеграции.

## 🌀 Дуга воплощенного интеллекта: от младенца до ученого
[[JUMP:00:09]]

Боюань Чэнь, руководитель General Robotics Lab в Университете Дьюка, строит свою работу на идее, что интеллект не возникает изолированно [0:48]. Он опирается на теорию когнитивного развития Жана Пиаже, согласно которой дети проходят через несколько стадий, чтобы понять мир: от простых моторных команд до сложной логики и социального взаимодействия [1:01].

Исследователь выделяет три ключевых этапа развития «воплощенного» (embodied) интеллекта:

*   **Sensing (Ощущение):** Первое, что делает новорожденный — это начинает чувствовать среду (свет, запахи, прикосновения, вкусы).
*   **Adapt (Адаптация):** Способность понимать свои моторные команды и адаптироваться к изменениям. По мнению Чэня, это «Святой Грааль» робототехники — создание у машин чувства собственного «я» [2:32].
*   **Connect (Связь):** Переход к взаимодействию с другими агентами и людьми, превращение робота в партнера и члена команды [3:11].

Этот подход дополняет классическую схему робототехники «чувствуй — планируй — действуй», добавляя в неё мета-уровень развития и отношений [4:02].

## 👂 Слух и обоняние: роботы учатся чувствовать без глаз
[[JUMP:04:15]]

Большинство современных роботов полагаются на зрение, но Чэнь демонстрирует, что другие модальности могут быть не менее эффективными.

### SonicSense: Искусство вибраций
Проект SonicSense представляет собой роботизированную руку, оснащенную четырьмя контактными микрофонами в кончиках пальцев — такими же, какие используются для записи гитар [4:28].

*   **Технология:** Вместо видеокамер робот использует вибрации при постукивании.
*   **Возможности:** Робот может определить количество воды в контейнере, число костей в стакане и даже количество граней у этих костей, просто встряхивая их [5:09].
*   **Точность:** После сканирования 83 различных объектов с использованием простого алгоритма «голосования большинством» система почти безошибочно определяет материал (стекло, дерево, керамика) [6:57].
*   **Реконструкция:** На основе только вибраций от контактов система способна восстановить полную 3D-форму объекта, которого она никогда не «видела» раньше [7:37].

### Scensory: Робот-ищейка для грибка
Еще одна важная модальность — обоняние. В кампусе Университета Дьюка исследователи обнаружили, что разные комнаты пахнут по-разному из-за грибков и микробов, которые могут влиять на здоровье людей [8:16].

Традиционные методы (ДНК-секвенирование) занимают недели и стоят дорого. Чэнь предложил использовать массив дешевых датчиков летучих органических соединений (VOC), общая стоимость которых не превышает $100 [11:44].

*   **Скорость:** Традиционный анализ требует недель, Scensory справляется за 7 секунд [13:02].
*   **Применение:** Робот входит в помещение, сканирует среду и находит источник грибка, определяя его вид по «запаховому отпечатку» [13:28].

## 🌲 Роботы в дикой природе: мультимодальное восприятие
[[JUMP:14:07]]

Когда робот выходит из лаборатории в лес (например, в парк Ино-Ривер), лабораторные предположения перестают работать: свет меняется, тени падают непредсказуемо, появляются препятствия [14:20].

Команда Чэня оснастила четвероногого робота контактными микрофонами на ногах за $15 с Amazon [15:54]. Это позволяет роботу буквально «слышать» поверхность:

1.  **Непрерывная проходимость (Continuous traversability):** Вместо бинарной оценки «пройду / не пройду» робот выставляет себе оценку стабильности [16:48].
2.  **Сенсорный синтез:** Система объединяет данные LiDAR, камер, микрофонов и акселерометров (IMU).
3.  **Преодоление препятствий:** Если обычная карта высот говорит роботу остановиться перед высокой травой, «слух» подсказывает, что трава мягкая и через неё можно пройти [17:54].

Чэнь утверждает, что обучение модели предсказывать все параметры сразу (цвет, семантику, проходимость) дает лучший результат, чем обучение каждой задаче по отдельности [19:30].

## 🔄 «Сшивание» политик и чувство собственного тела
[[JUMP:20:13]]

Одной из самых сложных задач является адаптация. Чэнь полагает, что роботам нужно «чувство себя» (sense of self), чтобы не переучиваться при каждом изменении среды или собственного тела [21:22].

### Моторный лепет (Motor Babbling)
Подобно младенцам, роботы Чэня начинают с хаотичного движения конечностями под наблюдением нескольких камер [22:16]. Это позволяет им выучить свою морфологию без предварительного программирования длины конечностей или расположения моторов. Если роботу обрезать кабель или изменить деталь тела, он заметит разницу всего за 50 примеров и сможет адаптировать свою модель «я» [26:43].

### Policy Stitching (Сшивание стратегий)
Чэнь ставит амбициозную цель: возможность «скачать» навык одного робота и применить его на другом, даже если у них разные тела [28:33].

*   **Проблема:** Разные роботы «говорят» на разных нейронных языках.
*   **Решение:** Метод относительного представления (relative representation). Исследователи обнаружили, что латентные пространства разных моделей изоморфны (их можно повернуть и совместить) [31:54].
*   **Результат:** Робот с одной конструкцией может успешно использовать «знания» робота с другой конструкцией для выполнения задачи (например, толкания объекта), просто «сшивая» их нейронные модули [33:17].

## 🛠️ Text2Robot: Генерация тел из текста
[[JUMP:35:44]]

Чэнь задается вопросом: можем ли мы автоматизировать проектирование самих роботов? Проект Text2Robot позволяет пользователю просто напечатать описание [38:00].

*   **Пример:** «Робот-лягушка, который бегает как можно быстрее» или «Робот-ботинок, экономящий энергию» [38:12].
*   **Механизм:** Генеративная модель создает 3D-сетку, которая затем «нарезается» алгоритмами для определения мест установки моторов и электроники.
*   **Эволюция:** Система прогоняет тысячи вариаций в симуляции, выбирая лучшие формы для конкретных задач (например, длинные ноги для скорости или короткие для экономии энергии) [41:13].
*   **Сборка:** Полученный дизайн печатается на 3D-принтере и собирается без единого винта за 10 минут [40:12].

Интересный вывод Чэня: использование природных форм (лягушка, гепард) в качестве стартовой точки для ИИ дает гораздо лучшие результаты, чем случайная комбинация геометрических примитивов [40:50].

## 🕷️ Аргус и предельная симметрия
[[JUMP:42:39]]

Вдохновляясь природой, команда создала робота Argus с 20 ногами и полной осевой симметрией [43:33].

*   **Философия:** Симметрия — это фундаментальный принцип жизни (от семян до вирусов). Чэнь решил довести его до крайности [43:08].
*   **Возможности:** Робот обладает избыточностью — он может продолжать идти, даже если 10% его ног выйдут из строя [44:29].
*   **Сенсорика:** На каждой ноге установлена камера (Time-of-Flight сенсор), что дает обзор на 360 градусов [43:49].
*   **Результаты:** Argus может карабкаться между стен в условиях гравитации Марса или Луны и стабильно переносить грузы, мгновенно адаптируясь к возмущениям [44:42].

## 👥 Человек и ИИ: командная работа
[[JUMP:46:16]]

В финале Чэнь представил платформу CREW для изучения взаимодействия человека с сотнями агентов ИИ одновременно [46:44].

*   **Обратная связь:** Используя алгоритмы обучения с подкреплением, роботы учатся на основе простых движений мыши человека (хорошо/плохо). 10 минут такой обратной связи достаточно для индивидуализации контроллера [47:38].
*   **Коллективный разум:** Один человек («тренер») может обучить группу роботов-преследователей сложным тактикам, таким как засада или окружение, без явного математического описания этих маневров [48:30].
*   **Прогноз на будущее:** Чэнь полагает, что роботы будущего сами будут выбирать свою форму для задач, эффективно объединяться в команды и даже ускорять научные открытия, открывая фундаментальные законы природы через наблюдение за сложными системами [50:16].

На вопрос о том, вытеснят ли гуманоиды все остальные формы роботов, Чэнь ответил скептически. По его мнению, гуманоиды — это важная научная площадка, но для домашних задач финальная форма робота, скорее всего, не будет человекоподобной; она должна определяться эффективностью выполнения задач, а не сходством с создателем [56:04].