Абхишек Гупта: «Мы должны выпустить роботов из лабораторий в наши дома»

В современном мире искусственного интеллекта обучение с подкреплением (Reinforcement Learning, RL) демонстрирует впечатляющие успехи в виртуальных средах — от побед в AlphaGo до покорения сложных видеоигр. Однако перенос этих алгоритмов на физические роботы в реальных условиях остается одной из самых сложных инженерных задач.

Абхишек Гупта, исследователь из Калифорнийского университета в Беркли, работающий под руководством легенд индустрии Питера Аббиля и Сергея Левина, в интервью подкасту TWIML AI обсуждает, почему современные методы RL пасуют перед реальностью и как изменить подход к обучению машин, чтобы они наконец стали полезными в наших домах.

🤖 Робототехника: от жесткого кода к «интеллекту» прачечной 0:13

Путь Абхишека Гупты в робототехнику начался с соревнований LEGO First League . Сначала он использовал «хардкод» — жесткое программирование всех примитивов и движений робота вручную. Это работало для простых задач, но не давало гибкости. Перейдя в Беркли, он обнаружил, что роботы могут учиться более сложным вещам: от складывания белья и завязывания узлов до управления вертолетами .

Гупта выделяет три ключевых барьера, которые мешают RL выйти за пределы симуляций:

Отсутствие «счетчика очков»: В видеоиграх награда заложена в коде (score), в реальности нет датчика, который сообщил бы роботу, что кухня убрана «на 100 баллов» .
Безопасность и износ: В симуляции можно проводить миллионы случайных попыток. В реальности робот либо сломает себя, либо окружающую обстановку задолго до того, как чему-то научится .
Проблема перезапуска (Reset): Скрытая «грязная тайна» лабораторий — после каждой неудачной попытки робота (например, если он выронил деталь) человеку приходится вручную возвращать объект на место .

По мнению Гупты, обучение низкоуровневым навыкам (манипуляциям) часто оказывается сложнее, чем высокоуровневому планированию — это проявление парадокса Моравека .

📹 Обучение через видео: как роботы смотрят YouTube 6:28

Одним из способов решить проблему «вознаграждения» является использование видеозаписей человеческой деятельности. Вместо того чтобы прописывать математическую функцию успеха, исследователи предлагают роботу учиться, просто глядя на нас .

Этот процесс Гупта сравнивает с поведением младенцев, которые наблюдают за родителями и копируют их намерения. Однако на техническом уровне возникают сложности:

Смена ракурса: Видео из сети могут быть сняты под разными углами и при разном освещении .
Эффект воплощения (Embodiment shift): У человека и робота разные «тела», разные сочленения и способы захвата предметов .

Для решения этих задач команда Гупты обучает модель-переводчик. Она берет видео с человеком и «воображает», как бы выглядело это же действие, если бы его совершал робот из своей точки обзора . Это особенно важно для задач с мелкими объектами, такими как пересыпание миндаля или подметание песка, где отследить каждую частицу вручную невозможно .

🧬 Разнообразие как двигатель прогресса без учителей 13:22

Если зайти еще дальше, можно ли обучать робота вообще без конкретной цели? Гупта исследует парадигму Unsupervised Skill Discovery (неконтролируемое обнаружение навыков) .

Идея заключается в том, чтобы забросить робота в среду (например, в детскую комнату) на несколько часов и заставить его максимизировать диверсификацию поведения . Вместо выполнения конкретной задачи робот учится делать как можно больше разных, непохожих друг на друга действий.

Результат: В симуляциях агенты сами учатся делать сальто вперед и назад, бегать в разных направлениях и обходить препятствия без единого байта внешней награды .
Польза: Когда человеку позже понадобится конкретный навык, у робота уже будет готовая библиотека базовых движений, которые нужно лишь слегка адаптировать .

🔄 Проблема «ручного» сброса и ингредиенты реального RL 19:28

Масштабирование обучения роботов упирается в необходимость постоянного присутствия инженера. Гупта подчеркивает абсурдность ситуации: если для обучения робота открывать дверь в течение 1000 часов требуется 1000 человеко-часов для того, чтобы эту дверь закрывать, — это не автоматизация.

Решение, предложенное в статье «Ingredients of Real-World Reinforcement Learning»:

Reset-free learning: Робот должен учиться не только выполнять задачу (forward controller), но и возвращать мир в исходное состояние (reset controller) .
Случайность сброса: Чтобы обучение было устойчивым, робот должен пытаться начать задачу из разных, даже неоптимальных положений .
Синхронизация задач: Если робот учится одновременно ставить чайник на плиту и поднимать упавшие предметы, одна задача естественным образом может стать «сбросом» для другой .

🧠 Хирургия градиентов и конкуренция задач 26:13

При попытке научить одну нейросеть выполнять сразу 50 разных действий (Multi-task learning) возникает конфликт. Гупта объясняет, что градиенты от разных задач могут «обнулять» друг друга .

В работе 2020 года «Gradient Surgery for Multi-Task Learning» команда предложила метод «хирургии»: если векторы обучения для задачи А и задачи Б направлены в разные стороны, их нужно математически спроецировать так, чтобы они стали ортогональными и не конфликтовали . Это позволяет модели прогрессировать во всех направлениях одновременно, не застревая в цикле ошибок.

🏠 Экологический RL: робот в естественной среде обитания 30:51

Заключительная идея дискуссии — концепция Ecological RL . Гупта предполагает, что мы сами создаем себе трудности, пытаясь обучать роботов в стерильных, пустых лабораториях.

В реальном мире, где есть люди, многие проблемы решаются сами собой:

Человек — это источник полезной стохастичности. Если робот уронит чайник, проходящий мимо человек, скорее всего, поднимет его и поставит на стол .
Это «дружелюбная среда», которая сама подталкивает робота к успеху.

По мнению Гупты, вместо того чтобы пытаться сделать робота идеальным в лаборатории, нужно выводить их в дома как можно раньше. Идеальным кандидатом на роль «платформы» он считает робот-пылесос Roomba, оснащенный небольшой манипуляторной рукой . Это обеспечит минимальную полезную функцию (уборка пола), пока робот будет учиться более сложным вещам в контакте с людьми.