Абхишек Гупта: «Мы должны выпустить роботов из лабораторий в наши дома»

The TWIML AI Podcast 961 38 мин 4 мин 25.03.2021
Главное

В современном мире искусственного интеллекта обучение с подкреплением (Reinforcement Learning, RL) демонстрирует впечатляющие успехи в виртуальных средах — от побед в AlphaGo до покорения сложных видеоигр. Однако перенос этих алгоритмов на физические роботы в реальных условиях остается одной из самых сложных инженерных задач.

Абхишек Гупта, исследователь из Калифорнийского университета в Беркли, работающий под руководством легенд индустрии Питера Аббиля и Сергея Левина, в интервью подкасту TWIML AI обсуждает, почему современные методы RL пасуют перед реальностью и как изменить подход к обучению машин, чтобы они наконец стали полезными в наших домах.

🤖 Робототехника: от жесткого кода к «интеллекту» прачечной 0:13

Путь Абхишека Гупты в робототехнику начался с соревнований LEGO First League . Сначала он использовал «хардкод» — жесткое программирование всех примитивов и движений робота вручную. Это работало для простых задач, но не давало гибкости. Перейдя в Беркли, он обнаружил, что роботы могут учиться более сложным вещам: от складывания белья и завязывания узлов до управления вертолетами .

Гупта выделяет три ключевых барьера, которые мешают RL выйти за пределы симуляций:

По мнению Гупты, обучение низкоуровневым навыкам (манипуляциям) часто оказывается сложнее, чем высокоуровневому планированию — это проявление парадокса Моравека .

📹 Обучение через видео: как роботы смотрят YouTube 6:28

Одним из способов решить проблему «вознаграждения» является использование видеозаписей человеческой деятельности. Вместо того чтобы прописывать математическую функцию успеха, исследователи предлагают роботу учиться, просто глядя на нас .

Этот процесс Гупта сравнивает с поведением младенцев, которые наблюдают за родителями и копируют их намерения. Однако на техническом уровне возникают сложности:

  1. Смена ракурса: Видео из сети могут быть сняты под разными углами и при разном освещении .
  2. Эффект воплощения (Embodiment shift): У человека и робота разные «тела», разные сочленения и способы захвата предметов .

Для решения этих задач команда Гупты обучает модель-переводчик. Она берет видео с человеком и «воображает», как бы выглядело это же действие, если бы его совершал робот из своей точки обзора . Это особенно важно для задач с мелкими объектами, такими как пересыпание миндаля или подметание песка, где отследить каждую частицу вручную невозможно .

🧬 Разнообразие как двигатель прогресса без учителей 13:22

Если зайти еще дальше, можно ли обучать робота вообще без конкретной цели? Гупта исследует парадигму Unsupervised Skill Discovery (неконтролируемое обнаружение навыков) .

Идея заключается в том, чтобы забросить робота в среду (например, в детскую комнату) на несколько часов и заставить его максимизировать диверсификацию поведения . Вместо выполнения конкретной задачи робот учится делать как можно больше разных, непохожих друг на друга действий.

🔄 Проблема «ручного» сброса и ингредиенты реального RL 19:28

Масштабирование обучения роботов упирается в необходимость постоянного присутствия инженера. Гупта подчеркивает абсурдность ситуации: если для обучения робота открывать дверь в течение 1000 часов требуется 1000 человеко-часов для того, чтобы эту дверь закрывать, — это не автоматизация.

Решение, предложенное в статье «Ingredients of Real-World Reinforcement Learning»:

  1. Reset-free learning: Робот должен учиться не только выполнять задачу (forward controller), но и возвращать мир в исходное состояние (reset controller) .
  2. Случайность сброса: Чтобы обучение было устойчивым, робот должен пытаться начать задачу из разных, даже неоптимальных положений .
  3. Синхронизация задач: Если робот учится одновременно ставить чайник на плиту и поднимать упавшие предметы, одна задача естественным образом может стать «сбросом» для другой .

🧠 Хирургия градиентов и конкуренция задач 26:13

При попытке научить одну нейросеть выполнять сразу 50 разных действий (Multi-task learning) возникает конфликт. Гупта объясняет, что градиенты от разных задач могут «обнулять» друг друга .

В работе 2020 года «Gradient Surgery for Multi-Task Learning» команда предложила метод «хирургии»: если векторы обучения для задачи А и задачи Б направлены в разные стороны, их нужно математически спроецировать так, чтобы они стали ортогональными и не конфликтовали . Это позволяет модели прогрессировать во всех направлениях одновременно, не застревая в цикле ошибок.

🏠 Экологический RL: робот в естественной среде обитания 30:51

Заключительная идея дискуссии — концепция Ecological RL . Гупта предполагает, что мы сами создаем себе трудности, пытаясь обучать роботов в стерильных, пустых лабораториях.

В реальном мире, где есть люди, многие проблемы решаются сами собой:

По мнению Гупты, вместо того чтобы пытаться сделать робота идеальным в лаборатории, нужно выводить их в дома как можно раньше. Идеальным кандидатом на роль «платформы» он считает робот-пылесос Roomba, оснащенный небольшой манипуляторной рукой . Это обеспечит минимальную полезную функцию (уборка пола), пока робот будет учиться более сложным вещам в контакте с людьми.


💬 Цитаты

«Если вы инструментировали весь мир под робота, то зачем вообще нужно машинное обучение? Вы могли просто решить задачу напрямую.»

Абхишек Гупта 20:46

«В видеоиграх у вас есть счет очков. В реальном мире нет оценки, которая говорит вам, что вы делаете все правильно.»

Абхишек Гупта 3:54
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Парадокс Моравека
Принцип в робототехнике, согласно которому высокоуровневые рассуждения требуют малых вычислительных ресурсов, тогда как низкоуровневые сенсомоторные навыки требуют огромных ресурсов.
Unsupervised Skill Discovery
Метод обучения робота, при котором он сам придумывает себе задачи для исследования окружения без внешних наград.
Gradient Surgery
Математический метод корректировки обучающих сигналов, предотвращающий их взаимное уничтожение при обучении нескольким задачам одновременно.
📊 Цифры
🗓 Хронология
  1. 2020 Публикация статьи о методе Gradient Surgery на конференции NeurIPS.
⚖️ Другая сторона
Искусственный интеллект Abhishek Gupta Reinforcement Learning робототехника UC Berkeley multi-task learning