В современном мире искусственного интеллекта обучение с подкреплением (Reinforcement Learning, RL) демонстрирует впечатляющие успехи в виртуальных средах — от побед в AlphaGo до покорения сложных видеоигр. Однако перенос этих алгоритмов на физические роботы в реальных условиях остается одной из самых сложных инженерных задач.
Абхишек Гупта, исследователь из Калифорнийского университета в Беркли, работающий под руководством легенд индустрии Питера Аббиля и Сергея Левина, в интервью подкасту TWIML AI обсуждает, почему современные методы RL пасуют перед реальностью и как изменить подход к обучению машин, чтобы они наконец стали полезными в наших домах.
🤖 Робототехника: от жесткого кода к «интеллекту» прачечной 0:13
Путь Абхишека Гупты в робототехнику начался с соревнований LEGO First League . Сначала он использовал «хардкод» — жесткое программирование всех примитивов и движений робота вручную. Это работало для простых задач, но не давало гибкости. Перейдя в Беркли, он обнаружил, что роботы могут учиться более сложным вещам: от складывания белья и завязывания узлов до управления вертолетами .
Гупта выделяет три ключевых барьера, которые мешают RL выйти за пределы симуляций:
- Отсутствие «счетчика очков»: В видеоиграх награда заложена в коде (score), в реальности нет датчика, который сообщил бы роботу, что кухня убрана «на 100 баллов» .
- Безопасность и износ: В симуляции можно проводить миллионы случайных попыток. В реальности робот либо сломает себя, либо окружающую обстановку задолго до того, как чему-то научится .
- Проблема перезапуска (Reset): Скрытая «грязная тайна» лабораторий — после каждой неудачной попытки робота (например, если он выронил деталь) человеку приходится вручную возвращать объект на место .
По мнению Гупты, обучение низкоуровневым навыкам (манипуляциям) часто оказывается сложнее, чем высокоуровневому планированию — это проявление парадокса Моравека .
📹 Обучение через видео: как роботы смотрят YouTube 6:28
Одним из способов решить проблему «вознаграждения» является использование видеозаписей человеческой деятельности. Вместо того чтобы прописывать математическую функцию успеха, исследователи предлагают роботу учиться, просто глядя на нас .
Этот процесс Гупта сравнивает с поведением младенцев, которые наблюдают за родителями и копируют их намерения. Однако на техническом уровне возникают сложности:
- Смена ракурса: Видео из сети могут быть сняты под разными углами и при разном освещении .
- Эффект воплощения (Embodiment shift): У человека и робота разные «тела», разные сочленения и способы захвата предметов .
Для решения этих задач команда Гупты обучает модель-переводчик. Она берет видео с человеком и «воображает», как бы выглядело это же действие, если бы его совершал робот из своей точки обзора . Это особенно важно для задач с мелкими объектами, такими как пересыпание миндаля или подметание песка, где отследить каждую частицу вручную невозможно .
🧬 Разнообразие как двигатель прогресса без учителей 13:22
Если зайти еще дальше, можно ли обучать робота вообще без конкретной цели? Гупта исследует парадигму Unsupervised Skill Discovery (неконтролируемое обнаружение навыков) .
Идея заключается в том, чтобы забросить робота в среду (например, в детскую комнату) на несколько часов и заставить его максимизировать диверсификацию поведения . Вместо выполнения конкретной задачи робот учится делать как можно больше разных, непохожих друг на друга действий.
- Результат: В симуляциях агенты сами учатся делать сальто вперед и назад, бегать в разных направлениях и обходить препятствия без единого байта внешней награды .
- Польза: Когда человеку позже понадобится конкретный навык, у робота уже будет готовая библиотека базовых движений, которые нужно лишь слегка адаптировать .
🔄 Проблема «ручного» сброса и ингредиенты реального RL 19:28
Масштабирование обучения роботов упирается в необходимость постоянного присутствия инженера. Гупта подчеркивает абсурдность ситуации: если для обучения робота открывать дверь в течение 1000 часов требуется 1000 человеко-часов для того, чтобы эту дверь закрывать, — это не автоматизация.
Решение, предложенное в статье «Ingredients of Real-World Reinforcement Learning»:
- Reset-free learning: Робот должен учиться не только выполнять задачу (forward controller), но и возвращать мир в исходное состояние (reset controller) .
- Случайность сброса: Чтобы обучение было устойчивым, робот должен пытаться начать задачу из разных, даже неоптимальных положений .
- Синхронизация задач: Если робот учится одновременно ставить чайник на плиту и поднимать упавшие предметы, одна задача естественным образом может стать «сбросом» для другой .
🧠 Хирургия градиентов и конкуренция задач 26:13
При попытке научить одну нейросеть выполнять сразу 50 разных действий (Multi-task learning) возникает конфликт. Гупта объясняет, что градиенты от разных задач могут «обнулять» друг друга .
В работе 2020 года «Gradient Surgery for Multi-Task Learning» команда предложила метод «хирургии»: если векторы обучения для задачи А и задачи Б направлены в разные стороны, их нужно математически спроецировать так, чтобы они стали ортогональными и не конфликтовали . Это позволяет модели прогрессировать во всех направлениях одновременно, не застревая в цикле ошибок.
🏠 Экологический RL: робот в естественной среде обитания 30:51
Заключительная идея дискуссии — концепция Ecological RL . Гупта предполагает, что мы сами создаем себе трудности, пытаясь обучать роботов в стерильных, пустых лабораториях.
В реальном мире, где есть люди, многие проблемы решаются сами собой:
- Человек — это источник полезной стохастичности. Если робот уронит чайник, проходящий мимо человек, скорее всего, поднимет его и поставит на стол .
- Это «дружелюбная среда», которая сама подталкивает робота к успеху.
По мнению Гупты, вместо того чтобы пытаться сделать робота идеальным в лаборатории, нужно выводить их в дома как можно раньше. Идеальным кандидатом на роль «платформы» он считает робот-пылесос Roomba, оснащенный небольшой манипуляторной рукой . Это обеспечит минимальную полезную функцию (уборка пола), пока робот будет учиться более сложным вещам в контакте с людьми.