Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ

The TWIML AI Podcast 830 40 мин 4 мин 05.01.2021
Главное

В новом выпуске подкаста TWIML AI специалист по машинному обучению и робототехнике из Вашингтонского университета Аравинд Раджесваран представляет алгоритм MOReL. Эта технология призвана решить одну из главных проблем современного обучения с подкреплением (RL) — необходимость миллиардов проб и ошибок, которая делает обучение ИИ в реальном мире опасным и дорогостоящим.

🤖 От физики к роботам: путь Аравинда Раджесварана 0:14

Аравинд Раджесваран начинал свой путь в академической среде с изучения статистической физики и химической инженерии в Индии . Его карьерный вектор изменился после курса по машинному обучению у профессора Равиндерана, где он увидел, что математический аппарат ИИ во многом схож с физическими моделями, но имеет гораздо более захватывающие прикладные задачи .

Объединившись со своим советником, экспертом по теории машинного обучения Шоном Какаде, Аравинд сосредоточился на устранении разрыва между теорией и практикой. По его словам, в то время как глубокое обучение (Deep Learning) уже показывало отличные результаты, требуя лишь теоретического объяснения «почему это работает», обучение с подкреплением (Reinforcement Learning) находилось в зачаточном состоянии: алгоритмы работали плохо, и существовало огромное поле для создания новых, более эффективных инструментов .

Сегодня ключевой вопрос исследований Раджесварана звучит так: как создать агентов, способных решать широкий спектр задач, используя лишь скромный объем опыта для каждой из них? . Ответ на этот вопрос ученый видит в синергии мета-обучения (meta-learning) и офлайн-обучения с подкреплением через использование моделей.

🌍 Почему модели — это ключ к масштабированию ИИ 4:27

Раджесваран проводит параллель между обучением с подкреплением и компьютерным зрением (CV). В CV никто не пытается обучить детектор кошек на 10 примерах — исследователи используют огромные массивы данных для распознавания тысяч категорий объектов . В RL же до сих пор доминируют задачи типа «научи робота поднимать один конкретный предмет за минимальное количество итераций».

Гость настаивает на смене парадигмы:

🛡️ Суть MOReL: пессимизм как залог безопасности 9:53

Алгоритм MOReL (Model-Based Offline Reinforcement Learning) направлен на работу в условиях офлайн-обучения. В этой постановке агент не может взаимодействовать со средой напрямую (чтобы ничего не сломать) — вместо этого он получает заранее собранный массив данных (логи вождения, историю просмотров видео или результаты медицинских испытаний) .

Главная инновация MOReL заключается в разделении пространства состояний на две зоны :

  1. Известные регионы (Known Regions): области, где у модели достаточно данных, и она уверена в точности своих предсказаний.
  2. Неизвестные регионы (Unknown Regions): области, где данных мало, и прогнозы модели могут быть ошибочными.

Чтобы предотвратить «галлюцинации» агента и использование ошибок модели для получения дутых наград, MOReL вводит механизм жесткого пессимизма. Как только агент в своих внутренних рассуждениях «забредает» в неизвестную зону, алгоритм накладывает огромный штраф . Это заставляет ИИ оставаться в рамках безопасного, проверенного опыта.

По словам Раджесварана, такой подход обеспечивает «нижнюю границу производительности» (lower bound) . Если в симуляции на базе MOReL агент набирает 1000 очков, разработчик может быть уверен, что в реальном мире он наберет не меньше.

📈 Результаты тестов и minimax-оптимальность 18:36

Теоретический анализ показал, что MOReL является «minimax-оптимальным» алгоритмом в табличном сеттинге . Это означает, что для самых сложных сценариев не может существовать алгоритма, который показал бы себя значительно лучше.

Эмпирические тесты проводились на стандартных бенчмарках робототехники MuJoCo (симуляции ходьбы гуманоидов, бега «гепарда» и прыжков) . Результаты впечатляют:

Аравинд признает, что в некоторых средах (например, HalfCheetah) алгоритм уступил из-за выбора PPO в качестве базового метода обучения политике . Однако модульность MOReL позволяет легко заменить PPO на Soft Actor-Critic (SAC) или другие методы для улучшения результата без изменения самой архитектуры модели.

🚀 Будущее: от YouTube до медицины 31:54

На текущий момент технология эффективно работает с компактными представлениями данных (координаты суставов, 3D-модели объектов). Переход к обучению напрямую из видео (пикселей) пока затруднен, так как создание ансамблей из сотен тяжелых визуальных моделей требует огромных вычислительных мощностей .

Раджесваран ожидает, что через пару лет накопленный «инструментарий алгоритмов» позволит безопасно внедрять такие системы в критически важные сферы:

В завершение беседы Аравинд упомянул свою работу над математическим обоснованием мета-обучения (совместно с Сергеем Левиным и Челси Финн), где ему удалось доказать сходимость алгоритмов Few-Shot Learning, что ранее оставалось открытым вопросом .

💬 Цитаты

«Модель — это то, как мир отреагирует на любые изменения, которые мы можем потенциально внести в форме действий.»

Аравинд Раджесваран 07:15

«В автономном вождении излишнее исследование может привести к авариям, чего мы явно хотим избежать.»

Аравинд Раджесваран 16:24
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Офлайн-обучение с подкреплением (Offline RL)
Метод обучения ИИ исключительно на заранее собранных наборах данных без прямого взаимодействия со средой.
Minimax-оптимальность
Теоретическое свойство алгоритма, означающее, что он показывает наилучший возможный результат в наихудшем сценарии.
MDP (Марковский процесс принятия решений)
Математическая модель, описывающая процесс принятия решений в ситуациях, где результаты частично случайны и частично под контролем агента.
📊 Цифры
🗓 Хронология
  1. 2021 Выпуск эпизода подкаста и активное развитие офлайн-RL как области исследований.
  2. 2020 Публикация работы Аравинда Раджесварана по теоретическим основам мета-обучения.
⚖️ Другая сторона
Искусственный интеллект MOReL Reinforcement Learning Aravind Rajeswaran MuJoCo Offline RL