# Абхишек Гупта: «Мы должны выпустить роботов из лабораторий в наши дома»

Источник: https://www.youtube.com/watch?v=BRNi6_RNey4
Канал: The TWIML AI Podcast
Опубликовано: 25.03.2021

---

В современном мире искусственного интеллекта обучение с подкреплением (Reinforcement Learning, RL) демонстрирует впечатляющие успехи в виртуальных средах — от побед в AlphaGo до покорения сложных видеоигр. Однако перенос этих алгоритмов на физические роботы в реальных условиях остается одной из самых сложных инженерных задач.

Абхишек Гупта, исследователь из Калифорнийского университета в Беркли, работающий под руководством легенд индустрии Питера Аббиля и Сергея Левина, в интервью подкасту TWIML AI обсуждает, почему современные методы RL пасуют перед реальностью и как изменить подход к обучению машин, чтобы они наконец стали полезными в наших домах.

## 🤖 Робототехника: от жесткого кода к «интеллекту» прачечной
[[JUMP:00:13]]

Путь Абхишека Гупты в робототехнику начался с соревнований LEGO First League [0:40]. Сначала он использовал «хардкод» — жесткое программирование всех примитивов и движений робота вручную. Это работало для простых задач, но не давало гибкости. Перейдя в Беркли, он обнаружил, что роботы могут учиться более сложным вещам: от складывания белья и завязывания узлов до управления вертолетами [1:29].

Гупта выделяет три ключевых барьера, которые мешают RL выйти за пределы симуляций:

*   **Отсутствие «счетчика очков»:** В видеоиграх награда заложена в коде (score), в реальности нет датчика, который сообщил бы роботу, что кухня убрана «на 100 баллов» [3:54].
*   **Безопасность и износ:** В симуляции можно проводить миллионы случайных попыток. В реальности робот либо сломает себя, либо окружающую обстановку задолго до того, как чему-то научится [4:08].
*   **Проблема перезапуска (Reset):** Скрытая «грязная тайна» лабораторий — после каждой неудачной попытки робота (например, если он выронил деталь) человеку приходится вручную возвращать объект на место [4:20].

По мнению Гупты, обучение низкоуровневым навыкам (манипуляциям) часто оказывается сложнее, чем высокоуровневому планированию — это проявление парадокса Моравека [5:24].

## 📹 Обучение через видео: как роботы смотрят YouTube
[[JUMP:06:28]]

Одним из способов решить проблему «вознаграждения» является использование видеозаписей человеческой деятельности. Вместо того чтобы прописывать математическую функцию успеха, исследователи предлагают роботу учиться, просто глядя на нас [6:54].

Этот процесс Гупта сравнивает с поведением младенцев, которые наблюдают за родителями и копируют их намерения. Однако на техническом уровне возникают сложности:

1.  **Смена ракурса:** Видео из сети могут быть сняты под разными углами и при разном освещении [8:22].
2.  **Эффект воплощения (Embodiment shift):** У человека и робота разные «тела», разные сочленения и способы захвата предметов [12:29].

Для решения этих задач команда Гупты обучает модель-переводчик. Она берет видео с человеком и «воображает», как бы выглядело это же действие, если бы его совершал робот из своей точки обзора [9:13]. Это особенно важно для задач с мелкими объектами, такими как пересыпание миндаля или подметание песка, где отследить каждую частицу вручную невозможно [11:25].

## 🧬 Разнообразие как двигатель прогресса без учителей
[[JUMP:13:22]]

Если зайти еще дальше, можно ли обучать робота вообще без конкретной цели? Гупта исследует парадигму **Unsupervised Skill Discovery** (неконтролируемое обнаружение навыков) [14:01].

Идея заключается в том, чтобы забросить робота в среду (например, в детскую комнату) на несколько часов и заставить его максимизировать **диверсификацию поведения** [14:40]. Вместо выполнения конкретной задачи робот учится делать как можно больше разных, непохожих друг на друга действий.

*   **Результат:** В симуляциях агенты сами учатся делать сальто вперед и назад, бегать в разных направлениях и обходить препятствия без единого байта внешней награды [15:06].
*   **Польза:** Когда человеку позже понадобится конкретный навык, у робота уже будет готовая библиотека базовых движений, которые нужно лишь слегка адаптировать [13:35].

## 🔄 Проблема «ручного» сброса и ингредиенты реального RL
[[JUMP:19:28]]

Масштабирование обучения роботов упирается в необходимость постоянного присутствия инженера. Гупта подчеркивает абсурдность ситуации: если для обучения робота открывать дверь [20:46] в течение 1000 часов требуется 1000 человеко-часов для того, чтобы эту дверь закрывать, — это не автоматизация.

Решение, предложенное в статье *«Ingredients of Real-World Reinforcement Learning»*:

1.  **Reset-free learning:** Робот должен учиться не только выполнять задачу (forward controller), но и возвращать мир в исходное состояние (reset controller) [21:51].
2.  **Случайность сброса:** Чтобы обучение было устойчивым, робот должен пытаться начать задачу из разных, даже неоптимальных положений [22:42].
3.  **Синхронизация задач:** Если робот учится одновременно ставить чайник на плиту и поднимать упавшие предметы, одна задача естественным образом может стать «сбросом» для другой [25:08].

## 🧠 Хирургия градиентов и конкуренция задач
[[JUMP:26:13]]

При попытке научить одну нейросеть выполнять сразу 50 разных действий (Multi-task learning) возникает конфликт. Гупта объясняет, что градиенты от разных задач могут «обнулять» друг друга [26:39].

В работе 2020 года «Gradient Surgery for Multi-Task Learning» команда предложила метод «хирургии»: если векторы обучения для задачи А и задачи Б направлены в разные стороны, их нужно математически спроецировать так, чтобы они стали ортогональными и не конфликтовали [29:22]. Это позволяет модели прогрессировать во всех направлениях одновременно, не застревая в цикле ошибок.

## 🏠 Экологический RL: робот в естественной среде обитания
[[JUMP:30:51]]

Заключительная идея дискуссии — концепция **Ecological RL** [31:29]. Гупта предполагает, что мы сами создаем себе трудности, пытаясь обучать роботов в стерильных, пустых лабораториях.

В реальном мире, где есть люди, многие проблемы решаются сами собой:

*   Человек — это источник полезной стохастичности. Если робот уронит чайник, проходящий мимо человек, скорее всего, поднимет его и поставит на стол [32:07].
*   Это «дружелюбная среда», которая сама подталкивает робота к успеху.

По мнению Гупты, вместо того чтобы пытаться сделать робота идеальным в лаборатории, нужно выводить их в дома как можно раньше. Идеальным кандидатом на роль «платформы» он считает робот-пылесос Roomba, оснащенный небольшой манипуляторной рукой [37:40]. Это обеспечит минимальную полезную функцию (уборка пола), пока робот будет учиться более сложным вещам в контакте с людьми.

---