Two Minute Papers: новый алгоритм решает проблему симуляции рук в VR

Two Minute Papers 774 тыс. 6 мин 3 мин 09.02.2021
Главное

Виртуальная реальность обещает совершить революцию во многих сферах нашей жизни, от подготовки хирургов до симуляции невесомости для космонавтов. В новом выпуске научно-популярного канала Two Minute Papers ведущий доктор Кэйроли Жолнаи-Фехер разбирает прорывное исследование, которое решает одну из самых сложных проблем индустрии — точную симуляцию человеческих рук. Автор рассказывает о новом алгоритме, способном воссоздавать сложнейшие взаимодействия пальцев с невероятной детализацией, однако за подобный реализм приходится платить огромную вычислительную цену.

🕶️ Перспективы виртуальной реальности и ограничения прошлых систем 0:00

По мнению ведущего, потенциал технологий виртуальной реальности (VR) поистине невероятен. В случае полноценной реализации этих технологий на практике, врачи смогут безопасно обучаться сложнейшим хирургическим операциям в виртуальной среде, пилоты получат более совершенные летные симуляторы, а космонавты смогут тренироваться в условиях точной симуляции нулевой гравитации.

В предыдущих исследовательских работах ученые использовали алгоритмы на базе машинного обучения, которые позволяли определять ориентацию рук пользователя с помощью наголовной камеры. Как отмечает автор, это открыло множество полезных возможностей:

Тем не менее, прошлые системы имели серьезный недостаток. Моделирование сложных взаимодействий рук между собой работало плохо, поэтому пользователям, желающим увидеть в VR реалистичный процесс мытья рук, приходилось искать другие решения. В индустрии часто говорят, что «нужно подождать еще одну научную работу, и все станет гораздо лучше». И, похоже, этот момент истины настал.

👐 Прорыв в реконструкции: эффект виртуальных перчаток 1:11

Новое исследование бросает вызов самым сложным сценариям: быстрым движениям, деформациям, сильному самоперекрытию и постоянному контакту рук друг с другом. На первый взгляд может показаться, что на кадрах демонстрации модель просто надевает перчатки. Однако доктор Кэйроли Жолнаи-Фехер подчеркивает, что это не перчатки, а результат высокоточной 3D-реконструкции, созданной новым алгоритмом.

Система успешно справляется даже со сложной сценой массажа рук, демонстрируя невероятный уровень детализации. На цифровой модели видны естественные складки кожи и анатомические деформации. Для достижения такого качества алгоритм генерирует полигональные сетки, которые обычно содержат более ста тысяч граней.

🧪 Пять ключевых компонентов математической модели 2:31

Доктор Кэйроли Жолнаи-Фехер выделяет пять основных «ингредиентов» алгоритма, без которых получение графики такого уровня было бы невозможным:

  1. Физический компонент (Physics term): необходим для корректного отслеживания контактов и перекрытий.
  2. Компонент деформации (Deformation term): отвечает за изменение формы мягких тканей, что критически важно, например, для реалистичного отображения больших пальцев рук.
  3. Компонент геометрической согласованности (Geometric consistency term): защищает модель от грубых визуальных артефактов. Ведущий с иронией предупреждает, что без этого математического условия алгоритм выдает пугающие анатомические искажения.
  4. Компонент фото-согласованности (Photo-consistency term): гарантирует точную привязку текстур, следя за тем, чтобы кончики ногтей визуально не смещались и не проваливались внутрь пальцев.
  5. Компонент контроля коллизий (Collision term): исключает взаимное проникновение объектов, гарантируя, что виртуальные пальцы не будут проходить сквозь друг друга.

В разделе оценки авторы исследования протестировали все эти компоненты изолированно, наглядно продемонстрировав вклад каждого из них в финальный результат.

⏳ Колоссальная вычислительная стоимость и взгляд в будущее 4:29

Главная проблема новой технологии заключается в том, что пять вышеописанных компонентов крайне требовательны к ресурсам, а обработка полигональных сеток с сотнями тысяч граней занимает огромное количество времени. Алгоритм не работает в реальном времени — он даже близко к нему не подобрался. Реконструкция сетки для одного лишь кадра из сцены с массажем рук занимает более 10 минут. Это означает, что на обработку всего видеоролика уходят часы или даже дни вычислений.

Однако, по мнению Кэйроли Жолнаи-Фехера, это вовсе не является проблемой. Он классифицирует данную работу как «исследование от нуля к единице», поскольку ученые смогли решить задачу, которая ранее считалась невыполнимой. Исследовательский процесс развивается поступательно, и текущий алгоритм — важный шаг вперед. Ведущий предполагает, что еще две хорошие научные работы, и подобные виртуальные «перчатки» смогут работать в интерактивном режиме в реальном времени.

Как утверждает Жолнаи-Фехер, этот прорыв в перспективе подарит человечеству новые способы взаимодействия в виртуальных пространствах, добавит реализма цифровым персонажам в кино и играх, поможет лучше понять особенности человеческой моторики и откроет новые горизонты в сфере физической реабилитации.

💬 Цитаты

«Это исследование класса «от нуля к единице», что означает, что оно берёт задачу, которая ранее была невыполнимой, и делает её возможной.»

Кэйроли Жолнаи-Фехер 04:44

«Я готов поспорить, что ещё две хорошие научные работы в будущем, и мы сможем получить эти «перчатки» в интерактивном режиме.»

Кэйроли Жолнаи-Фехер 05:14
👥 Спикер
📖 Термины
Полигональная сетка (triangle mesh)
Совокупность вершин, рёбер и граней, которая определяет форму многогранного объекта в трёхмерной компьютерной графике.
Самоперекрытие (self-occlusion)
Явление в компьютерном зрении, при котором одна часть объекта загораживает от камеры другую часть того же объекта.
Коллизия (collision)
Взаимное проникновение или пересечение трёхмерных геометрий в симуляции, нарушающее законы физики.
📊 Цифры
⚖️ Другая сторона
Технологии и IT Two Minute Papers виртуальная реальность 3D-реконструкция алгоритмы трекинга