В современном мире искусственного интеллекта основное внимание уделяется «мозгу» — алгоритмам обработки текста и изображений. Однако Боюань Чэнь из Университета Дьюка утверждает, что настоящая разумность невозможна без тела и физического взаимодействия с миром. В рамках семинара в Стэнфорде он представил концепцию «Дуги воплощенного интеллекта», которая описывает эволюцию машин от базового восприятия до сложной социальной интеграции.
🌀 Дуга воплощенного интеллекта: от младенца до ученого 0:09
Боюань Чэнь, руководитель General Robotics Lab в Университете Дьюка, строит свою работу на идее, что интеллект не возникает изолированно . Он опирается на теорию когнитивного развития Жана Пиаже, согласно которой дети проходят через несколько стадий, чтобы понять мир: от простых моторных команд до сложной логики и социального взаимодействия .
Исследователь выделяет три ключевых этапа развития «воплощенного» (embodied) интеллекта:
- Sensing (Ощущение): Первое, что делает новорожденный — это начинает чувствовать среду (свет, запахи, прикосновения, вкусы).
- Adapt (Адаптация): Способность понимать свои моторные команды и адаптироваться к изменениям. По мнению Чэня, это «Святой Грааль» робототехники — создание у машин чувства собственного «я» .
- Connect (Связь): Переход к взаимодействию с другими агентами и людьми, превращение робота в партнера и члена команды .
Этот подход дополняет классическую схему робототехники «чувствуй — планируй — действуй», добавляя в неё мета-уровень развития и отношений .
👂 Слух и обоняние: роботы учатся чувствовать без глаз 4:15
Большинство современных роботов полагаются на зрение, но Чэнь демонстрирует, что другие модальности могут быть не менее эффективными.
SonicSense: Искусство вибраций
Проект SonicSense представляет собой роботизированную руку, оснащенную четырьмя контактными микрофонами в кончиках пальцев — такими же, какие используются для записи гитар .
- Технология: Вместо видеокамер робот использует вибрации при постукивании.
- Возможности: Робот может определить количество воды в контейнере, число костей в стакане и даже количество граней у этих костей, просто встряхивая их .
- Точность: После сканирования 83 различных объектов с использованием простого алгоритма «голосования большинством» система почти безошибочно определяет материал (стекло, дерево, керамика) .
- Реконструкция: На основе только вибраций от контактов система способна восстановить полную 3D-форму объекта, которого она никогда не «видела» раньше .
Scensory: Робот-ищейка для грибка
Еще одна важная модальность — обоняние. В кампусе Университета Дьюка исследователи обнаружили, что разные комнаты пахнут по-разному из-за грибков и микробов, которые могут влиять на здоровье людей .
Традиционные методы (ДНК-секвенирование) занимают недели и стоят дорого. Чэнь предложил использовать массив дешевых датчиков летучих органических соединений (VOC), общая стоимость которых не превышает $100 .
- Скорость: Традиционный анализ требует недель, Scensory справляется за 7 секунд .
- Применение: Робот входит в помещение, сканирует среду и находит источник грибка, определяя его вид по «запаховому отпечатку» .
🌲 Роботы в дикой природе: мультимодальное восприятие 14:07
Когда робот выходит из лаборатории в лес (например, в парк Ино-Ривер), лабораторные предположения перестают работать: свет меняется, тени падают непредсказуемо, появляются препятствия .
Команда Чэня оснастила четвероногого робота контактными микрофонами на ногах за $15 с Amazon . Это позволяет роботу буквально «слышать» поверхность:
- Непрерывная проходимость (Continuous traversability): Вместо бинарной оценки «пройду / не пройду» робот выставляет себе оценку стабильности .
- Сенсорный синтез: Система объединяет данные LiDAR, камер, микрофонов и акселерометров (IMU).
- Преодоление препятствий: Если обычная карта высот говорит роботу остановиться перед высокой травой, «слух» подсказывает, что трава мягкая и через неё можно пройти .
Чэнь утверждает, что обучение модели предсказывать все параметры сразу (цвет, семантику, проходимость) дает лучший результат, чем обучение каждой задаче по отдельности .
🔄 «Сшивание» политик и чувство собственного тела 20:13
Одной из самых сложных задач является адаптация. Чэнь полагает, что роботам нужно «чувство себя» (sense of self), чтобы не переучиваться при каждом изменении среды или собственного тела .
Моторный лепет (Motor Babbling)
Подобно младенцам, роботы Чэня начинают с хаотичного движения конечностями под наблюдением нескольких камер . Это позволяет им выучить свою морфологию без предварительного программирования длины конечностей или расположения моторов. Если роботу обрезать кабель или изменить деталь тела, он заметит разницу всего за 50 примеров и сможет адаптировать свою модель «я» .
Policy Stitching (Сшивание стратегий)
Чэнь ставит амбициозную цель: возможность «скачать» навык одного робота и применить его на другом, даже если у них разные тела .
- Проблема: Разные роботы «говорят» на разных нейронных языках.
- Решение: Метод относительного представления (relative representation). Исследователи обнаружили, что латентные пространства разных моделей изоморфны (их можно повернуть и совместить) .
- Результат: Робот с одной конструкцией может успешно использовать «знания» робота с другой конструкцией для выполнения задачи (например, толкания объекта), просто «сшивая» их нейронные модули .
🛠️ Text2Robot: Генерация тел из текста 35:44
Чэнь задается вопросом: можем ли мы автоматизировать проектирование самих роботов? Проект Text2Robot позволяет пользователю просто напечатать описание .
- Пример: «Робот-лягушка, который бегает как можно быстрее» или «Робот-ботинок, экономящий энергию» .
- Механизм: Генеративная модель создает 3D-сетку, которая затем «нарезается» алгоритмами для определения мест установки моторов и электроники.
- Эволюция: Система прогоняет тысячи вариаций в симуляции, выбирая лучшие формы для конкретных задач (например, длинные ноги для скорости или короткие для экономии энергии) .
- Сборка: Полученный дизайн печатается на 3D-принтере и собирается без единого винта за 10 минут .
Интересный вывод Чэня: использование природных форм (лягушка, гепард) в качестве стартовой точки для ИИ дает гораздо лучшие результаты, чем случайная комбинация геометрических примитивов .
🕷️ Аргус и предельная симметрия 42:39
Вдохновляясь природой, команда создала робота Argus с 20 ногами и полной осевой симметрией .
- Философия: Симметрия — это фундаментальный принцип жизни (от семян до вирусов). Чэнь решил довести его до крайности .
- Возможности: Робот обладает избыточностью — он может продолжать идти, даже если 10% его ног выйдут из строя .
- Сенсорика: На каждой ноге установлена камера (Time-of-Flight сенсор), что дает обзор на 360 градусов .
- Результаты: Argus может карабкаться между стен в условиях гравитации Марса или Луны и стабильно переносить грузы, мгновенно адаптируясь к возмущениям .
👥 Человек и ИИ: командная работа 46:16
В финале Чэнь представил платформу CREW для изучения взаимодействия человека с сотнями агентов ИИ одновременно .
- Обратная связь: Используя алгоритмы обучения с подкреплением, роботы учатся на основе простых движений мыши человека (хорошо/плохо). 10 минут такой обратной связи достаточно для индивидуализации контроллера .
- Коллективный разум: Один человек («тренер») может обучить группу роботов-преследователей сложным тактикам, таким как засада или окружение, без явного математического описания этих маневров .
- Прогноз на будущее: Чэнь полагает, что роботы будущего сами будут выбирать свою форму для задач, эффективно объединяться в команды и даже ускорять научные открытия, открывая фундаментальные законы природы через наблюдение за сложными системами .
На вопрос о том, вытеснят ли гуманоиды все остальные формы роботов, Чэнь ответил скептически. По его мнению, гуманоиды — это важная научная площадка, но для домашних задач финальная форма робота, скорее всего, не будет человекоподобной; она должна определяться эффективностью выполнения задач, а не сходством с создателем .