Пессимизм как стратегия: Аравинд Раджесваран о безопасности офлайн-обучения ИИ

В новом выпуске подкаста TWIML AI специалист по машинному обучению и робототехнике из Вашингтонского университета Аравинд Раджесваран представляет алгоритм MOReL. Эта технология призвана решить одну из главных проблем современного обучения с подкреплением (RL) — необходимость миллиардов проб и ошибок, которая делает обучение ИИ в реальном мире опасным и дорогостоящим.

🤖 От физики к роботам: путь Аравинда Раджесварана 0:14

Аравинд Раджесваран начинал свой путь в академической среде с изучения статистической физики и химической инженерии в Индии . Его карьерный вектор изменился после курса по машинному обучению у профессора Равиндерана, где он увидел, что математический аппарат ИИ во многом схож с физическими моделями, но имеет гораздо более захватывающие прикладные задачи .

Объединившись со своим советником, экспертом по теории машинного обучения Шоном Какаде, Аравинд сосредоточился на устранении разрыва между теорией и практикой. По его словам, в то время как глубокое обучение (Deep Learning) уже показывало отличные результаты, требуя лишь теоретического объяснения «почему это работает», обучение с подкреплением (Reinforcement Learning) находилось в зачаточном состоянии: алгоритмы работали плохо, и существовало огромное поле для создания новых, более эффективных инструментов .

Сегодня ключевой вопрос исследований Раджесварана звучит так: как создать агентов, способных решать широкий спектр задач, используя лишь скромный объем опыта для каждой из них? . Ответ на этот вопрос ученый видит в синергии мета-обучения (meta-learning) и офлайн-обучения с подкреплением через использование моделей.

🌍 Почему модели — это ключ к масштабированию ИИ 4:27

Раджесваран проводит параллель между обучением с подкреплением и компьютерным зрением (CV). В CV никто не пытается обучить детектор кошек на 10 примерах — исследователи используют огромные массивы данных для распознавания тысяч категорий объектов . В RL же до сих пор доминируют задачи типа «научи робота поднимать один конкретный предмет за минимальное количество итераций».

Гость настаивает на смене парадигмы:

Модель как предсказатель: Модель мира — это понимание того, как среда отреагирует на любое действие робота .
Универсальность вместо узкой специализации: Модельно-ориентированный (Model-Based) подход позволяет роботу сначала «бесцельно» исследовать среду (например, кухню), накапливая знания о физике объектов, а уже потом получать конкретное задание от человека .
Экономия времени: В то время как «безмодельные» (Model-Free) алгоритмы вынуждены переучиваться с нуля для каждой новой задачи, обученная модель позволяет роботу мгновенно адаптироваться к новому поручению .

🛡️ Суть MOReL: пессимизм как залог безопасности 9:53

Алгоритм MOReL (Model-Based Offline Reinforcement Learning) направлен на работу в условиях офлайн-обучения. В этой постановке агент не может взаимодействовать со средой напрямую (чтобы ничего не сломать) — вместо этого он получает заранее собранный массив данных (логи вождения, историю просмотров видео или результаты медицинских испытаний) .

Главная инновация MOReL заключается в разделении пространства состояний на две зоны :

Известные регионы (Known Regions): области, где у модели достаточно данных, и она уверена в точности своих предсказаний.
Неизвестные регионы (Unknown Regions): области, где данных мало, и прогнозы модели могут быть ошибочными.

Чтобы предотвратить «галлюцинации» агента и использование ошибок модели для получения дутых наград, MOReL вводит механизм жесткого пессимизма. Как только агент в своих внутренних рассуждениях «забредает» в неизвестную зону, алгоритм накладывает огромный штраф . Это заставляет ИИ оставаться в рамках безопасного, проверенного опыта.

По словам Раджесварана, такой подход обеспечивает «нижнюю границу производительности» (lower bound) . Если в симуляции на базе MOReL агент набирает 1000 очков, разработчик может быть уверен, что в реальном мире он наберет не меньше.

📈 Результаты тестов и minimax-оптимальность 18:36

Теоретический анализ показал, что MOReL является «minimax-оптимальным» алгоритмом в табличном сеттинге . Это означает, что для самых сложных сценариев не может существовать алгоритма, который показал бы себя значительно лучше.

Эмпирические тесты проводились на стандартных бенчмарках робототехники MuJoCo (симуляции ходьбы гуманоидов, бега «гепарда» и прыжков) . Результаты впечатляют:

MOReL показал лучшие результаты в 14 из 20 протестированных сценариев .
В случаях, где алгоритм побеждал, его отрыв от ближайшего конкурента был значительным.
В тех редких случаях, когда MOReL не был первым, он все равно оставался вторым с минимальным отставанием .

Аравинд признает, что в некоторых средах (например, HalfCheetah) алгоритм уступил из-за выбора PPO в качестве базового метода обучения политике . Однако модульность MOReL позволяет легко заменить PPO на Soft Actor-Critic (SAC) или другие методы для улучшения результата без изменения самой архитектуры модели.

🚀 Будущее: от YouTube до медицины 31:54

На текущий момент технология эффективно работает с компактными представлениями данных (координаты суставов, 3D-модели объектов). Переход к обучению напрямую из видео (пикселей) пока затруднен, так как создание ансамблей из сотен тяжелых визуальных моделей требует огромных вычислительных мощностей .

Раджесваран ожидает, что через пару лет накопленный «инструментарий алгоритмов» позволит безопасно внедрять такие системы в критически важные сферы:

Здравоохранение: поиск оптимальных стратегий лечения на основе исторических данных без риска для пациентов .
Беспилотный транспорт: обучение на логах без необходимости допускать аварии на дорогах .
Сервисы Google: оптимизация рекомендаций YouTube без риска потерять аудиторию из-за неудачных экспериментов в реальном времени .

В завершение беседы Аравинд упомянул свою работу над математическим обоснованием мета-обучения (совместно с Сергеем Левиным и Челси Финн), где ему удалось доказать сходимость алгоритмов Few-Shot Learning, что ранее оставалось открытым вопросом .