Исследователи из Университета Пердью обучили робота за рекордные сроки с помощью физических априоров дифференциальных уравнений

В рамках научного семинара Стэнфорда по робототехнике (Stanford Robotics Seminar ENGR319) представитель Университета Пердью представил новый подход к обучению роботов планированию движений с использованием априорных физических данных на основе дифференциальных уравнений в частных производных (PDE). Традиционные методы машинного обучения требуют недель сбора данных и огромных вычислительных мощностей, в то время как предлагаемый метод позволяет обучать сложные системы за считанные минуты. Интеграция уравнения Эйконала в нейросетевые архитектуры решает давнюю проблему баланса между скоростью вычислений и способностью робота адаптироваться к изменяющейся среде.

🤖 Проблема планирования движений и эволюция подходов 0:05

Планирование движений представляет собой фундаментальный способ координации поведения робота от заданной начальной точки до цели с соблюдением всех наложенных ограничений. В современных лабораториях робототехники этот инструментарий применяется в широком спектре задач, охватывающих планирование движений всего тела мобильных манипуляторов, навигацию в динамических средах, реактивное манипулирование в условиях внешних возмущений и бесконфликтное управление группами агентов. Главной целью долгое время оставалось создание алгоритмов, способных работать в режиме реального времени при минимальном предварительном обучении.

Исторически подходы к этой задаче развивались в несколько этапов, каждый из которых сталкивался со своими вычислительными трудностями:

Алгоритмы на основе случайных выборок: На этапе бакалавриата спикер начинал работу с адаптивных техник построения деревьев, где ключевой задачей было нахождение кратчайшего пути.
Классические вычислительные ограничения: Основная проблема классических алгоритмов выборки заключалась в их низкой вычислительной скорости. С увеличением числа степеней свободы робота время расчетов росло настолько сильно, что их использование в реальном времени становилось невозможным.
Дата-ориентированные методы: В период 2018–2019 годов начался активный переход к нейросетевым методам. Однако простое имитационное обучение без добавления стохастичности оказывалось неэффективным, поскольку нейросети застревали в локальных минимумах.

Для преодоления локальных минимумов исследователи начали внедрять в модели случайность различными способами, включая метод Dropout, вариационные автокодировщики и современные диффузионные модели. Тем не менее главным недостатком таких систем, по мнению докладчика, оставалась колоссальная стоимость обучения. Необходимость предварительного запуска классических алгоритмов в автономном режиме для генерации экспертных демонстраций приводила к тому, что суммарное время подготовки данных и обучения нивелировало выигрыш в скорости последующего вывода.

⚖️ Три столпа эффективного управления роботами 5:01

Начав работу на факультете Университета Пердью, исследователь сфокусировался на поиске альтернативных путей обучения нейронных сетей без использования экспертных демонстраций. Его научная группа выделила три ключевые характеристики идеального метода:

Эффективность вывода: Возможность немедленного исполнения команд, когда планы траекторий рассчитываются максимально быстро.
Эффективность обучения: Снижение затрат на обучение моделей и полное устранение необходимости в экспертной разметке, что радикально упрощает перенос модели в новые среды.
Адаптивность: Способность системы подстраиваться под большое число степеней свободы, сложные рельефы и комплексные ограничения манипуляций, а также масштабируемость до множества децентрализованно взаимодействующих роботов.

Существующие в индустрии и академии методы распределяются по этим характеристикам неравномерно, уступая в одном или нескольких аспектах:

Методы на основе оптимизации обладают высокой скоростью вывода и обучения, но совершенно не адаптируются к сложным сценариям.
Дискретизационные и выборочные подходы (алгоритмы семейства A*, RRT) не требуют обучения, но их вывод крайне медленный из-за необходимости разбивать все пространство на сетку. Попытки использовать массивный параллелизм пока не гарантируют масштабируемости под сложные кинематические ограничения.
Классические дата-ориентированные методы демонстрируют великолепную скорость вывода и адаптивность, однако их эффективность обучения находится на крайне низком уровне.

Спикер утверждает, что объединить все три преимущества в рамках одной системы возможно, если внедрить в процесс обучения физические априоры, которые уже доступны ученым из законов природы.

🧮 Уравнение Эйконала как физический априор 8:35

Докладчик особо подчеркивает, что под физическими априорами его команда понимает не использование симуляторов или физических движков, а математический аппарат дифференциальных уравнений в частных производных. Изначально исследователи анализировали уравнение Гамильтона — Якоби — Беллмана, управляющее движением динамических систем, однако на практике оно оказывается чрезвычайно сложным для решения из-за сингулярностей. В результате упрощения и допущения тривиальной динамики это уравнение сводится к геодезическому уравнению Эйконала.

Уравнение Эйконала связывает две основные функции:

$T$ — неизвестная искомая функция времени перемещения, которую необходимо найти.
$S$ — известная функция ограничений, которая определяет расстояние от робота до ближайшего препятствия или манипуляционного многообразия.

Решение этого уравнения позволяет получить волновые фронты, следуя по градиенту которых робот может безопасно перемещаться к цели. Существующие численные методы, такие как метод быстрого марша, хорошо справляются с решением уравнения Эйконала, но физически не способны масштабироваться далее трех измерений. Чтобы преодолеть этот барьер, команда из Пердью предложила использовать нейронные сети как универсальные аппроксиматоры для решения уравнения Эйконала в пространствах высокой размерности.

На вход нейросети подаются координаты начального состояния робота, целевого состояния и данные восприятия окружающей среды, а на выходе формируется функция времени в пути. Обучение модели происходит через функцию потерь сопоставления градиентов. Согласно уравнению Эйконала, обратная величина нормы градиента времени пути по входным координатам должна быть равна функции ограничений. Таким образом, функция потерь накладывается не на прямой проход сети, а непосредственно на ее градиенты, сравнивая аппроксимированные ограничения с истинными расстояниями до препятствий. Единственными входными данными для обучения становятся случайно выбранные конфигурации робота и их дистанции до физических преград.

🛠️ Преодоление ограничений: метрическое обучение и принцип Белльмана 15:47

Несмотря на теоретическую стройность, на практике первоначальная модель не могла масштабироваться дальше четырех измерений. Исследователи обнаружили два фундаментальных ограничения: уравнение Эйконала имеет несколько решений, а градиенты между последовательными конфигурациями на траектории оставались неконтролируемыми, что приводило к лавинообразному росту ошибок при движении робота.

Попытка использовать «вязкостное» уравнение Эйконала путем добавления лапласиана помогла гарантировать единственность решения и позволила масштабировать систему до шести степеней свободы в узких проходах. Однако вычисление вторых производных нейросети оказалось вычислительно тяжелым процессом, резко увеличившим время обучения. Позже команда предложила более дешевую аппроксимацию лапласиана через минимизацию энергии Дирихле, но модель все равно требовала слишком большого количества итераций на старте.

В итоге окончательное решение было найдено внутри свойств самого уравнения Эйконала, которое описывает геодезическое расстояние и функцию ценности Белльмана:

Внедрение метрического обучения: Поскольку геодезическое расстояние должно удовлетворять свойству симметрии и неравенству треугольника, структуру нейросети изменили. Вместо обычного сжатия путей через L2-норму, координаты переводятся в латентное пространство, где к ним применяются операция max pooling и бесконечная норма. Это позволило кусочно аппроксимировать несколько альтернативных путей одновременно.
Принцип оптимальности Белльмана: Чтобы стабилизировать градиенты на последовательных участках траектории, ученые применили метод временных разностей, аналогичный алгоритмам Q-learning в обучении с подкреплением. Координаты робота слегка возмущаются в направлении аналитически вычисленного градиента времени пути для получения следующего состояния.

Комбинация функции потерь сопоставления градиентов с TD-обучением на основе уравнения Эйконала позволила радикально повысить точность и масштабировать алгоритм на пространства высокой размерности.

📊 Экспериментальные результаты и масштабирование 26:14

В простых лабиринтах предложенный подход продемонстрировал временные контуры, практически идентичные эталонному численному методу быстрого марша, который жестко ограничен малой размерностью. При этом старые версии алгоритмов без метрического обучения накопливали ошибки по мере удаления от источника.

В тестах на эффективность вывода и обучения новая модель показала колоссальное превосходство над существующими аналогами:

Скорость на 7 DOF: На стандартной задаче для манипулятора с 7 степенями свободы алгоритм находит план траектории всего за 0,07 секунды.
Сравнение с нейросетью MPiNet от NVIDIA: Архитектура MPiNet требует нескольких недель для сбора данных и целой недели обучения на восьми промышленных графических процессорах NVIDIA Tesla. Метод Университета Пердью затратил менее одной минуты на генерацию данных и менее часа на обучение для 300 различных сред на одной потребительской видеокарте. При этом показатели успешности у моделей оказались сопоставимыми.
Сложные пространства: Система успешно справилась с планированием в многоэтажных помещениях Gibson, затратив минимум ресурсов. Алгоритм масштабировали до роботов с 12 DOF в пространствах с тонкими препятствиями и до огромных роботов с 15 DOF, зажатых в крайне тесных комнатах.

Докладчик отмечает, что разработанная ими функция ценности легко интегрируется в современные фреймворки прогнозного управления (MPC, MPPI), что позволяет использовать предсказания напрямую без постоянного пересчета градиентов. По последним данным лаборатории, время обучения модели для роботов с 12 DOF удалось сократить до рекордных пяти минут.

🗺️ Мультимодальные задачи и автономное картирование 36:16

Для решения сложных манипуляционных задач ученые изменили функцию скорости: вместо расстояния до препятствий робот ориентируется на расстояние до целевого манипуляционного многообразия. В таких условиях система демонстрирует высокую долю успеха по сравнению со старыми алгоритмами типа CoMPNetX.

Когда задача становится мультимодальной (например, робот должен открыть шкаф, достать ложку и перемешать содержимое), классическая литература по PDE подсказала решение: представлять глобальное уравнение как сумму конечных базисных функций. Декомпозиция пространства на субдомены позволяет избежать сингулярностей и разрывов на стыках траекторий. Кроме того, если меняется лишь часть окружения, робототехникам больше не нужно переобучать всю нейросеть целиком — достаточно обновить только одну конкретную базисную функцию, отвечающую за данный участок. Этот подход уже успешно протестирован на гуманоидных роботах.

Еще одним важным направлением стало автономное картирование неизвестных пространств. Спикер указал на давний разрыв между картами и планировщиками траекторий, из-за чего перевод сетки занятости в конфигурационное пространство требует тяжелых вычислений. Новая идея заключается в том, чтобы робот по мере исследования комнат сразу строил карту в виде поля времени прибытия. В таком сценарии планировщик становится ненужным: робот движется, просто сдвигаясь по градиенту времени прибытия. На обработку каждого кадра и дообучение нейросети «на лету» уходит менее одной секунды, что превращает алгоритм в полностью автономное решение общего назначения.

В заключение исследователь упомянул успешное масштабирование метода на многоагентные сценарии и новые работы в области ассистивной робототехники, включая помощь в одевании людей и деликатное протирание конечностей пациентов с учетом биомеханических ограничений.