NVIDIA: как ИИ обучается движениям за 10 виртуальных лет

Искусственный интеллект, который учится 10 лет: прорыв NVIDIA в анимации персонажей 0:00

Исследователи NVIDIA представили инновационный метод обучения виртуальных персонажей, позволяющий им достигать невероятной естественности движений. Хотя по заявлениям авторов системы для полноценного освоения навыков «воина» персонажам требуется эквивалент 10 лет тренировок, благодаря вычислительной мощности современных систем этот процесс в реальности занимает всего 10 дней. Ведущий канала Two Minute Papers Кароли Чоба подчеркивает, что этот результат — наглядная демонстрация того, как упорство и правильный подход к машинному обучению превращают неуклюжих агентов в реалистичных бойцов.

Путь от падений к мастерству 0:40

Процесс обучения начинается с загрузки базовых движений, после чего агенты попадают в NVIDIA Isaac — виртуальную среду («тренажерный зал»), где они отрабатывают навыки взаимодействия с физическим миром. Результаты демонстрируют прогресс во времени:

Первая неделя: Персонажи крайне неуклюжи, часто падают и демонстрируют движения, далекие от атлетических.
Два месяца: Падения прекращаются, появляются базовые перемещения, однако координация все еще выглядит неестественной.
Два года: Формируются движения, напоминающие боевые искусства, хотя точность все еще требует доработки.
Десять лет (в симуляции): Персонажи достигают высокого уровня мастерства, демонстрируя сложные, плавные и точные боевые приемы.

По словам ведущего, критически важным фактором здесь является время, которое позволяет нейросетям «прочувствовать» физику движений.

Технологические особенности системы 3:09

Успех проекта обусловлен сочетанием нескольких передовых подходов, которые делают анимацию гибкой и реалистичной:

Латентные пространства: Система использует латентные пространства (структурированные области, где похожие данные сгруппированы вместе) для переключения между типами движений. ИИ научился «сшивать» разные типы активности вместе, даже если они не были объединены в исходных данных.
Устойчивость к возмущениям: Агенты не только учатся нападать, но и эффективно вставать после падений. В ходе тестирования исследователи проверяют их устойчивость, буквально забрасывая персонажей виртуальными ящиками.
Гибкое управление: Анимация позволяет разделять направление взгляда и вектор движения, а также точно задавать позы, что делает технологию потенциально применимой в будущих виртуальных мирах.
Состязательные сети (GAN): Для генерации движений используется связка из нейросети-генератора и нейросети-дискриминатора. Дискриминатор постоянно проверяет результаты на реалистичность, отсеивая неправдоподобные варианты до тех пор, пока сгенерированные движения не начинают обманывать человеческий глаз.

Уроки «Третьего закона исследований» 5:44

Кароли Чоба отмечает, что первоначальные результаты обучения (эквивалент 30 минут реального времени) были крайне неудовлетворительными. Однако исследователи NVIDIA продолжили работу, что стало отличным уроком упорства. Ведущий напоминает о так называемом «Третьем законе исследовательских работ»: плохие исследования терпят неудачу в 100% случаев, а хорошие — в 99%. Это означает, что финальный результат, который видит зритель, является лишь 1% проделанной титанической работы.

В заключение автор выражает уверенность в том, что по мере «демократизации» этой технологии NVIDIA, подобные системы найдут применение в самых разных проектах, меняя представления о качестве виртуальной анимации. Для отслеживания подобных глубоких экспериментов рекомендуется использовать инструменты платформы Weights & Biases, которая предоставляет возможности для создания детальных отчетов о ходе обучения моделей.