Даниэла Рус: «Магия больше не нужна — достаточно робототехники и ИИ»

В новом выпуске подкаста The TWIML AI Podcast директор Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) Даниэла Рус обсуждает перспективы развития автономии через интеграцию цифрового мозга и физического тела машин. Известный исследователь делится уникальным опытом создания роботов нового поколения — от компактных нейросетей, вдохновленных биологическими чертами червей, до мягких подводных систем и медицинских оригами-капсул из сосисочной оболочки. В центре дискуссии находится вопрос о том, как фундаментальные прорывы в робототехнике способны изменить медицину, транспорт и повседневную жизнь человека.

🛠️ От заводского станка к вершинам науки: путь Даниэлы Рус 0:41

Даниэла Рус пришла в робототехнику благодаря стремлению объединить абстрактный мир математики с осязаемым миром физических объектов. Ее увлечение наукой и инженерией автономности началось с желания понять математические и биологические основы сложных систем, а также научиться создавать для машин как тела, так и мозг. Это стремление уходит корнями в детство, проведенное в Румынии в период жесткой экономии, когда будущая исследовательница много читала и фантазировала о суперсилах. Рожденная в семье ученых, она имела широкие интересы, однако государственные ограничения Румынии предопределили ее академический путь в сфере STEM.

Важной частью школьной системы того времени была обязательная трудовая практика: одну неделю в месяц все ученики работали на фабриках для подготовки к вступлению в пролетариат. Подростком Даниэла Рус трудилась на заводе по производству запасных частей для локомотивов. В те годы эта работа казалась ей бесполезной, но оглядываясь назад, исследовательница признает ее огромную ценность для карьеры в робототехнике. На заводе она освоила работу на токарном станке и научилась изготавливать винты с нуля, что дало ей глубокое понимание физических аспектов вещей. Когда школьная математика становилась все более абстрактной, этот практический опыт помог ей осознать необходимость работы на стыке вычислений, механизмов и материалов.

🏛️ История MIT CSAIL: от Марвина Мински до будущего вычислений 3:25

Лаборатория компьютерных наук и искусственного интеллекта MIT (CSAIL) обладает богатой историей, разделенной на два ключевых направления: искусственный интеллект (AI) и компьютерные науки (CS). Направление искусственного интеллекта берет свое начало в 1956 году, когда молодой ассистент профессора Марвин Мински собрал коллег для поездки в леса Нью-Гэмпшира. Проведя месяц в дискуссиях и размышлениях, ученые ввели в обиход термин «искусственный интеллект» и провозгласили важность создания машин с человеческими характеристиками движения, восприятия и обучения.

Вторая ветвь лаборатории, посвященная компьютерным наукам, зародилась в 1963 году в рамках проекта Project MAC (Machine Aided Cognition — вычисления с помощью машин). Главной целью проекта было создание громоздкой машины, размером с целую комнату, которой могли бы одновременно пользоваться два человека. В стенах CSAIL были разработаны фундаментальные технологии, ставшие сегодня общепринятыми стандартами:

Системы разделения времени и концепция паролей;
Оптическая компьютерная мышь;
Первый компьютер с графическим дисплеем;
Первый объектно-ориентированный язык программирования CLU, заложивший основы современной софтверной индустрии;
Технологии шифрования и криптографии, обеспечивающие безопасность современных онлайн-покупок.

Сегодня исследователи CSAIL стремятся определять будущее вычислительных систем и искать способы улучшения мира с помощью технологий.

🤖 Что такое робот: новое прочтение интеллекта и воплощения 6:58

Даниэла Рус предлагает своим студентам следующее определение: робот — это программируемое механическое устройство, способное прилагать физические усилия. В расширенной версии этого определения обязательно присутствуют сенсоры, через которые машина воспринимает окружающую действительность, и актуаторы (приводы), позволяющие ей воздействовать на физический мир.

Взаимодействие робототехники, искусственного интеллекта и машинного обучения открывает, по мнению Даниэлы Рус, колоссальные перспективы для будущего человечества. Она разделяет эти понятия следующим образом:

Робототехника представляет собой «вычисления в движении»;
Искусственный интеллект является наукой о рассуждениях и принятии решений;
Машинное обучение пересекает обе сферы и отвечает за поиск закономерностей и прогнозирование на основе данных.

Исследовательница полагает, что синергия этих направлений позволит усовершенствовать разработку лекарств, диагностику заболеваний, полностью ликвидировать смертность в дорожно-транспортных происшествиях и персонализировать образование. По прогнозам Рус, в будущем машины возьмут на себя выполнение рутинных задач, освободив людям время для творчества и действительно важных дел.

Проводя аналогию со своим любимым мультфильмом «Ученик чародея», где Микки Маус оживляет метлу, Даниэла Рус отмечает, что сегодня для подобных чудес магия больше не требуется — достаточно робототехники и ИИ. Она выражает твердую убежденность в необходимости изучения телесного воплощения (embodiment) для развития интеллекта, поскольку любая система черпает свои возможности из неразрывной связи физического тела и управляющего им мозга.

🐛 Жидкое время и 19 нейронов: биологический прорыв в ИИ 14:11

Изучение сложных систем, по мнению Даниэлы Рус, помогает не только решать инженерные задачи, но и проверять гипотезы о функционировании живой природы, механизмы которой — от координации муравьев и пчелиных колоний до поведения косяков рыб — во многом остаются загадкой для науки. Исследовательница критически оценивает текущее состояние индустрии ИИ. По словам Даниэлы Рус, современные успехи машинного обучения базируются на идеях многолетней давности, масштабированных за счет огромных объемов данных и вычислительных мощностей. Она утверждает, что без принципиально новых технических концепций отрасль рискует столкнуться с замедлением прогресса и получением лишь незначительных инкрементальных результатов. Для дальнейшего развития необходима инфраструктура, которая доставляла бы данные и вычисления так же бесперебойно, как вода и электроэнергия.

В поисках новых подходов команда MIT CSAIL обратилась к биологии, взяв за основу нервную систему крошечных организмов — нематод. Это привело к созданию новой архитектуры машинного обучения под названием «политики нейронных схем» (Neural Circuit Policies, NCP). Ее ключевые отличия от классических глубоких нейросетей заключаются в следующем:

Изменение природы нейрона: если в традиционных сетях нейроны выполняют простую пороговую функцию, то в биологических микроорганизмах они вычисляют дифференциальные уравнения. В архитектуре NCP используются уравнения с варьирующейся временной константой, получившие название «жидкого времени» (liquid time differential equations).
Специализация узлов: нейроны в NCP не идентичны, а разделены по ролям по аналогии с природой — на моторные, сенсорные и интернейроны.
Архитектура, основанная на биологических паттернах, что позволяет кардинально снизить размеры сетей.

Фантастическая эффективность подхода была доказана в проекте беспилотного автомобиля. Если стандартной глубокой нейросети для обучения вождению на основе действий человека требуется около 100 000 нейронов и полмиллиона параметров, то модели NCP для решения этой же задачи понадобилось всего 19 нейронов.

Такое колоссальное сокращение размерности решает проблему «черного ящика» современных ИИ-моделей. По мнению Рус, непрозрачность традиционных сетей мешает пользователям понимать логику принятия решений, затрудняет выявление аномального поведения и прогнозирование катастрофических сбоев при редких входных данных. Компактные модели делают процессы прозрачными, работают быстрее и обладают минимальным экологическим следом.

Даниэла Рус приводит конкретные цифры: по оценкам исследователей из Массачусетского университета в Амхерсте, обучение одной крупной модели глубокого обучения генерирует около 626 000 фунтов углекислого газа, что эквивалентно выбросам пяти автомобилей за весь их жизненный цикл. Более того, на обучение знаменитой модели GPT-3 было затрачено 4,6 миллиона долларов только в виде расходов на электроэнергию.

🚗 Эволюция автопилота: от Raspberry Pi до компилятора мечты 26:29

На текущем этапе полезность моделей NCP доказана преимущественно на задачах анализа временных рядов (time series), таких как обработка видео, финансовые данные или метеорологические прогнозы, в то время как работа с дискретными системами вроде текста или отдельных изображений пока находится в стадии разработки. В экспериментах по навигации беспилотных автомобилей на земле и в воздухе архитектура NCP продемонстрировала высокую компактность и способность улавливать причинно-следственные связи. В отличие от традиционных моделей, чье внимание рассредоточено по всему изображению, алгоритм NCP четко фокусируется на критически важных зонах — горизонте и обочинах дороги, игнорируя фоновый контекст.

Модели весят всего несколько сотен килобит, что позволяет запускать их на микрокомпьютерах Raspberry Pi, открывая новые возможности для встроенных систем. В качестве альтернативы исследователи CSAIL развивают методы прунинга (отсечения) и компрессии уже обученных сетей, позволяющие без потери качества удалять до 90% параметров. Даниэла Рус делится своей масштабной мечтой — созданием сквозного кросс-архитектурного компилятора, который мог бы принимать на вход любую громоздкую традиционную модель и автоматически преобразовывать или сжимать ее в оптимизированную структуру NCP. Тем не менее, она признает, что автоматическая генерация таких компактных моделей до сих пор остается серьезным вызовом для науки.

🐙 Мягкая робототехника: чему инженеры учатся у слонов и рыб 32:05

Первый промышленный робот-манипулятор был изобретен в 1961 году. С тех пор автоматизация шагнула далеко вперед, однако тяжелые металлические машины до сих пор изолированы от людей на заводах из-за соображений безопасности. Даниэла Рус видит решение этой проблемы в развитии мягкой робототехники (soft robotics). Ключевым критерием здесь выступает модуль Юнга, измеряющий жесткость материалов: у металлов и твердых пластиков он на порядки превосходит показатели живых тканей человеческого тела. Создание роботов с аналогичным человеку модулем Юнга сделает их безопасными для прямого контакта.

Исследовательница призывает преодолеть стереотипы последних 60 лет, когда роботов создавали исключительно в виде человекоподобных структур, механических рук или коробок на колесах. Роботы могут быть выполнены из силикона, бумаги и даже изо льда или еды. Одним из ярких примеров команды CSAIL стал проект SoFi (Soft Fish) — мягкая роботизированная рыба, созданная около пяти лет назад. Ее хвост изгибается за счет волнообразных движений, вызываемых перекачкой воды внутрь и наружу конструкции. Испытания на коралловых рифах показали, что SoFi двигается настолько естественно и тихо, что без труда проникает внутрь косяков рыб, не пугая их, в отличие от аппаратов с шумными гребными винтами.

Другим источником вдохновения для Даниэлы Рус стал хобот слона — уникальный природный манипулятор, способный аккуратно взять со стола картофельный чип, не сломав его, или забрать банан из рук человека, но при этом обладающий достаточной силой, чтобы отогнать хищника. На основе этих принципов инженеры разработали мягкие роборуки с сенсорной кожей, «видящие» мир через прикосновения. Такие мягкие пальцы способны без детальных 3D-моделей брать хрупкие продукты — например, гроздья винограда или брокколи. Промышленным роботам требуются сложнейшие математические расчеты для захвата, напоминающие попытку поднять предмет кончиками ногтей, тогда как мягкая кисть человека или робота податливо адаптируется и обволакивает объект любой формы.

💊 Хирург в капсуле: оригами-роботы из сосисочной оболочки 40:20

Одним из самых необычных проектов CSAIL Даниэла Рус называет робота-оригами, получившего неофициальное имя «мини-хирург». Это крошечное мягкое устройство, изготовленное из съедобной сосисочной оболочки, складывается подобно гармошке и замораживается внутри ледяной капсулы размером с обычную таблетку. Пациент проглатывает капсулу, в желудке лед тает, и робот разворачивается для проведения процедур без разрезов и боли.

Подобные устройства способны решать критические медицинские задачи:

Извлекать инородные предметы, включая дисковые круглые батарейки, которые дети часто глотают. Такие батарейки крайне опасны, поскольку в течение часа они начинают прожигать живые ткани и обычно требуют срочного хирургического вмешательства для удаления.
Служить для безболезненного взятия образцов тканей (биопсии).
Затягивать внутренние раны и доставлять лекарственные препараты в строго определенные зоны организма.

В конструкцию робота вшит крошечный магнит, а управление им осуществляется извне с помощью контролируемого магнитного поля — концепция, аналогичная работе стандартных аппаратов МРТ в больницах. На данный момент устройство успешно доказало свою эффективность в лабораторных условиях, и команда готовится к следующей фазе — экспериментам in vivo (на живых организмах).

🚙 Психология на перекрестке: как робомобили учатся понимать людей 44:09

Затрагивая тему беспилотного транспорта, Даниэла Рус выражает скепсис относительно скорого появления полноценных роботакси на улицах городов. По ее мнению, текущие технологии готовы лишь для низкоскоростных машин в простых, контролируемых условиях. Перед индустрией все еще стоят серьезные вызовы:

Езда на высоких скоростях;
Высокая динамика городской среды;
Неблагоприятные погодные условия (дождь и снегопад блокируют работу сенсоров);
Интеграция роботов в поток машин, управляемых людьми.

Исследовательница отмечает, что роботы часто заходят в тупик на перекрестках из-за неспособности понимать язык невербального общения водителей — например, мимолетный визуальный контакт или едва заметные жесты.

Чтобы преодолеть этот барьер, команда MIT CSAIL разработала адаптивный алгоритм управления. Он анализирует поведение окружающих автомобилей, определяет тип личности водителя и подстраивает под него действия беспилотника. В основу системы легла концепция социальной ориентации (Social Value Orientation, SVO), заимствованная из социальной психологии. Эта метрика математически проецирует характер человека на окружность, где угол указывает на баланс между собственными интересами и выгодой для окружающих.

Алгоритм разделяет водителей на три типа:

Эгоистичный тип: если беспилотнику нужно совершить левый поворот, а навстречу едет эгоистичный водитель, система пропустит его во избежание аварии.
Просоциальный тип: водитель готов к компромиссам и ведет себя предсказуемо.
Альтруистичный тип: водитель активно уступает дорогу, и робот должен мгновенно распознать этот жест и оперативно завершить маневр, чтобы не создавать заторов.

Математические параметры личностей интегрируются непосредственно в функции стоимости и обучения контроллеров автомобиля. Сбор эталонных данных для обучения этой модели проводился с помощью симуляций и открытых датасетов (таких как NGSIM), в которые исследователи помещали собственные контролируемые транспортные средства для наблюдения за реакцией реальных участников движения.