Янник Килчер: как заставить роботов «думать на ходу»?

Yannic Kilcher 3,1 тыс. 29 мин 2 мин 23.04.2020
Главное

Роботы, которые «думают на ходу»: концепция конкурентного управления в глубоком обучении 1:19

В классическом обучении с подкреплением (Reinforcement Learning, RL) агент и среда существуют в рамках «замороженного» времени. Агент получает данные, принимает решение и выполняет действие, ожидая, пока среда отреагирует на него. Однако этот подход неэффективен для реальных роботов, которым требуется время на обработку визуальной информации и вычисления. Янник Килчер в своем обзоре научной статьи «Thinking While Moving: Deep Reinforcement Learning with Concurrent Control» (авторы из Google Brain, UC Berkeley и X) разбирает новый фреймворк, позволяющий роботам совершать непрерывные, плавные движения без пауз на «размышление».

Проблема «блокирующего» управления 0:00

В типичных реализациях RL, таких как OpenAI Gym, время фактически останавливается, пока агент принимает решение. Весь процесс выглядит как последовательность дискретных шагов:

Как отмечает ведущий, в «блокирующей» модели агент выполняет действие, затем «замирает», пока компьютер обрабатывает новую информацию, чтобы выбрать следующий шаг. Это приводит к рывкообразному движению робота. В реальном мире, пока система обрабатывает данные, окружающая среда продолжает меняться. К тому моменту, когда робот принимает решение, оно основывается на устаревших данных, что создает значительный временной лаг.

Конкурентное управление: непрерывный поток 0:53

Авторы обсуждаемой работы предлагают формулировку, в которой процесс принятия решений происходит параллельно с выполнением предыдущего действия.

По мнению Килчера, это требует иного математического подхода, основанного на дифференциальных уравнениях, описывающих изменение среды во времени, вместо классических дискретных переходов.

Вектор остаточного действия 25:34

Ключевым нововведением в данном фреймворке является концепция «вектора того, что осталось сделать» (vector-to-go).

При принятии нового решения робот получает не только текущее состояние среды, но и информацию о том, какая часть предыдущего запланированного действия еще не завершена. Ведущий подчеркивает, что без этой информации агенту пришлось бы самостоятельно вычислять, что именно произошло с состоянием мира за время «обдумывания», что крайне затруднительно. Использование этого вектора позволяет алгоритму обучаться значительно эффективнее.

Результаты и эффективность 27:41

Исследователи протестировали подход как в симуляциях, так и на реальных роботах, занимающихся захватом объектов.

Килчер заключает, что, несмотря на некоторые компромиссы в точности, возможность сократить время выполнения операций вдвое является весомым аргументом в пользу разработки конкурентных систем управления в робототехнике.

💬 Цитаты

«Пока робот думает, он выполняет старое действие, и мир продолжает меняться.»

Янник Килчер 05:27

«Если вы всегда выбираете действие с максимальным Q-значением, вы придете к оптимальному решению.»

Янник Килчер 11:37
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement Learning (RL)
Метод машинного обучения, при котором агент учится принимать решения, получая награды или штрафы за свои действия в среде.
Q-функция
Функция, оценивающая ожидаемое вознаграждение, которое получит агент, выполнив конкретное действие в определенном состоянии.
Конкурентное управление
Подход, при котором планирование следующего действия происходит параллельно с исполнением текущего.
Вектор остаточного действия (vector-to-go)
Данные о том, какая часть запланированного движения еще не была завершена к текущему моменту.
Блокирующее управление
Классический подход, требующий полной остановки робота для вычисления каждого следующего шага.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Reinforcement Learning Google Brain UC Berkeley Concurrent Control Robotics