# Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ

Источник: https://www.youtube.com/watch?v=6HOgDpLGCws
Канал: The TWIML AI Podcast
Опубликовано: 05.01.2021

---

В новом выпуске подкаста TWIML AI специалист по машинному обучению и робототехнике из Вашингтонского университета Аравинд Раджесваран представляет алгоритм MOReL. Эта технология призвана решить одну из главных проблем современного обучения с подкреплением (RL) — необходимость миллиардов проб и ошибок, которая делает обучение ИИ в реальном мире опасным и дорогостоящим.

## 🤖 От физики к роботам: путь Аравинда Раджесварана
[[JUMP:00:14]]

Аравинд Раджесваран начинал свой путь в академической среде с изучения статистической физики и химической инженерии в Индии [01:08]. Его карьерный вектор изменился после курса по машинному обучению у профессора Равиндерана, где он увидел, что математический аппарат ИИ во многом схож с физическими моделями, но имеет гораздо более захватывающие прикладные задачи [01:20].

Объединившись со своим советником, экспертом по теории машинного обучения Шоном Какаде, Аравинд сосредоточился на устранении разрыва между теорией и практикой. По его словам, в то время как глубокое обучение (Deep Learning) уже показывало отличные результаты, требуя лишь теоретического объяснения «почему это работает», обучение с подкреплением (Reinforcement Learning) находилось в зачаточном состоянии: алгоритмы работали плохо, и существовало огромное поле для создания новых, более эффективных инструментов [02:13].

Сегодня ключевой вопрос исследований Раджесварана звучит так: как создать агентов, способных решать широкий спектр задач, используя лишь скромный объем опыта для каждой из них? [03:22]. Ответ на этот вопрос ученый видит в синергии мета-обучения (meta-learning) и офлайн-обучения с подкреплением через использование моделей.

## 🌍 Почему модели — это ключ к масштабированию ИИ
[[JUMP:04:27]]

Раджесваран проводит параллель между обучением с подкреплением и компьютерным зрением (CV). В CV никто не пытается обучить детектор кошек на 10 примерах — исследователи используют огромные массивы данных для распознавания тысяч категорий объектов [05:17]. В RL же до сих пор доминируют задачи типа «научи робота поднимать один конкретный предмет за минимальное количество итераций».

Гость настаивает на смене парадигмы:

*   **Модель как предсказатель:** Модель мира — это понимание того, как среда отреагирует на любое действие робота [06:50].
*   **Универсальность вместо узкой специализации:** Модельно-ориентированный (Model-Based) подход позволяет роботу сначала «бесцельно» исследовать среду (например, кухню), накапливая знания о физике объектов, а уже потом получать конкретное задание от человека [08:49].
*   **Экономия времени:** В то время как «безмодельные» (Model-Free) алгоритмы вынуждены переучиваться с нуля для каждой новой задачи, обученная модель позволяет роботу мгновенно адаптироваться к новому поручению [09:14].

## 🛡️ Суть MOReL: пессимизм как залог безопасности
[[JUMP:09:53]]

Алгоритм MOReL (Model-Based Offline Reinforcement Learning) направлен на работу в условиях офлайн-обучения. В этой постановке агент не может взаимодействовать со средой напрямую (чтобы ничего не сломать) — вместо этого он получает заранее собранный массив данных (логи вождения, историю просмотров видео или результаты медицинских испытаний) [10:06].

Главная инновация MOReL заключается в разделении пространства состояний на две зоны [12:38]:

1.  **Известные регионы (Known Regions):** области, где у модели достаточно данных, и она уверена в точности своих предсказаний.
2.  **Неизвестные регионы (Unknown Regions):** области, где данных мало, и прогнозы модели могут быть ошибочными.

Чтобы предотвратить «галлюцинации» агента и использование ошибок модели для получения дутых наград, MOReL вводит механизм жесткого пессимизма. Как только агент в своих внутренних рассуждениях «забредает» в неизвестную зону, алгоритм накладывает огромный штраф [14:14]. Это заставляет ИИ оставаться в рамках безопасного, проверенного опыта.

По словам Раджесварана, такой подход обеспечивает «нижнюю границу производительности» (lower bound) [14:27]. Если в симуляции на базе MOReL агент набирает 1000 очков, разработчик может быть уверен, что в реальном мире он наберет не меньше.

## 📈 Результаты тестов и minimax-оптимальность
[[JUMP:18:36]]

Теоретический анализ показал, что MOReL является «minimax-оптимальным» алгоритмом в табличном сеттинге [20:06]. Это означает, что для самых сложных сценариев не может существовать алгоритма, который показал бы себя значительно лучше.

Эмпирические тесты проводились на стандартных бенчмарках робототехники MuJoCo (симуляции ходьбы гуманоидов, бега «гепарда» и прыжков) [22:47]. Результаты впечатляют:

*   MOReL показал лучшие результаты в 14 из 20 протестированных сценариев [25:48].
*   В случаях, где алгоритм побеждал, его отрыв от ближайшего конкурента был значительным.
*   В тех редких случаях, когда MOReL не был первым, он все равно оставался вторым с минимальным отставанием [26:01].

Аравинд признает, что в некоторых средах (например, HalfCheetah) алгоритм уступил из-за выбора PPO в качестве базового метода обучения политике [27:34]. Однако модульность MOReL позволяет легко заменить PPO на Soft Actor-Critic (SAC) или другие методы для улучшения результата без изменения самой архитектуры модели.

## 🚀 Будущее: от YouTube до медицины
[[JUMP:31:54]]

На текущий момент технология эффективно работает с компактными представлениями данных (координаты суставов, 3D-модели объектов). Переход к обучению напрямую из видео (пикселей) пока затруднен, так как создание ансамблей из сотен тяжелых визуальных моделей требует огромных вычислительных мощностей [32:20].

Раджесваран ожидает, что через пару лет накопленный «инструментарий алгоритмов» позволит безопасно внедрять такие системы в критически важные сферы:

*   **Здравоохранение:** поиск оптимальных стратегий лечения на основе исторических данных без риска для пациентов [16:36].
*   **Беспилотный транспорт:** обучение на логах без необходимости допускать аварии на дорогах [16:11].
*   **Сервисы Google:** оптимизация рекомендаций YouTube без риска потерять аудиторию из-за неудачных экспериментов в реальном времени [34:28].

В завершение беседы Аравинд упомянул свою работу над математическим обоснованием мета-обучения (совместно с Сергеем Левиным и Челси Финн), где ему удалось доказать сходимость алгоритмов Few-Shot Learning, что ранее оставалось открытым вопросом [39:08].