Гокул Свами: «Многие маршруты в Google Maps рассчитываются через инверсное обучение с подкреплением»

The TWIML AI Podcast 853 37 мин 4 мин 21.08.2023
Главное

В новом выпуске подкаста TWIML AI ведущий Сэм Черрингтон обсуждает с Гокулом Свами, докторантом Института робототехники Университета Карнеги-Меллона (CMU), прорывные методы в области обучения с подкреплением и имитационного обучения. Основное внимание уделено тому, как научить ИИ принимать сложные решения, минимизируя вычислительные затраты и учитывая факторы, которые робот или алгоритм не могут наблюдать напрямую.

🧠 Инверсное обучение с подкреплением без RL 4:10

Одной из центральных тем беседы стала работа Гокула Свами «Inverse Reinforcement Learning Without Reinforcement Learning», представленная на конференции ICML. Суть инверсного обучения с подкреплением (Inverse RL) заключается в том, чтобы на основе действий эксперта (например, человека-водителя) восстановить функцию вознаграждения — понять, что именно оптимизирует эксперт .

Гокул отмечает, что сформулировать правила вождения вручную крайне сложно: трудно математически выразить, насколько соблюдение скоростного режима важнее, чем дистанция до соседнего автомобиля . Однако традиционный подход к Inverse RL требует многократного решения тяжелых задач прямого обучения с подкреплением (RL) на каждом шаге . Это делает процесс крайне неэффективным с точки зрения вычислений и объема необходимых данных.

Предложенный Свами метод решает эту проблему за счет изменения подхода к исследованию среды (exploration):

🚗 Прикладное применение в беспилотниках и Google Maps 15:45

Хотя исследования проводились в симуляторах, Гокул Свами видит огромный потенциал для реального сектора. По его словам, инверсное обучение с подкреплением уже является фундаментом индустрии автономного транспорта .

Ключевые сферы применения:

🩺 Принятие решений при неполных данных (Каузальный подход) 19:16

Другая работа Свами посвящена проблеме «скрытых искажающих факторов» (unobserved confounders). В реальном мире агент (например, ИИ-помощник врача) часто не видит всего, что видел эксперт-человек.

Гокул приводит пример с диагностикой рака:

  1. Врач видит результаты теста и назначает химиотерапию только тем, кому она нужна .
  2. ИИ видит только факт назначения лекарства и то, что пациенту стало лучше.
  3. Без понимания результатов теста (которые ИИ не наблюдает) алгоритм может сделать ошибочный вывод, что химиотерапию нужно назначать всем подряд .

Для решения этой задачи Свами применяет методы каузальной инференции (причинно-следственного вывода), включая коррекцию по «черному ходу» (backdoor adjustment) Джуды Перла и прокси-коррекцию из эконометрики . Это позволяет алгоритму фильтровать влияние ненаблюдаемых факторов и делать верные прогнозы даже при ограниченном наборе данных .

🛡️ Обучение общим правилам безопасности 27:31

Третье направление исследований касается того, как научить ИИ «тому, чего делать не следует», не перечисляя все запреты вручную. Свами утверждает, что у многих задач есть общие ограничения безопасности: робот не должен поджигать кухню ни при приготовлении сендвича, ни при уборке стола .

Основные идеи подхода:

🚀 Будущее: Рекомендательные системы и социальный выбор 34:54

В завершение беседы Гокул Свами поделился планами на будущее. Он планирует сосредоточиться на проблемах RLHF и вопросе «выравнивания» (alignment) моделей . Главный технический вызов здесь — как агрегировать предпочтения множества разных людей (разметчиков), которые могут противоречить друг другу. Для этого Свами планирует использовать теорию социального выбора и экономические модели .

Также его интересует сфера рекомендаций контента. Ссылаясь на опыт Spotify, он отмечает, что рекомендации подкастов и музыки уже переходят к моделям последовательного принятия решений . Свами уверен, что его алгоритмы помогут лучше учитывать скрытые предпочтения пользователей, которые меняются в процессе взаимодействия с системой, даже если эти предпочтения нельзя измерить напрямую .

💬 Цитаты

«Инверсное обучение с подкреплением — это вопрос: если я вижу данные оптимальной политики, какова была функция вознаграждения, которую оптимизировали?»

Гокул Свами 04:53

«Для LLM вы не можете получить бесконечное количество данных от людей-разметчиков, и в этот момент нужно быть гораздо осторожнее с алгоритмами.»

Гокул Свами 35:07
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Inverse Reinforcement Learning (IRL)
Метод машинного обучения, при котором агент пытается восстановить цели (награды) эксперта, наблюдая за его поведением.
RLHF
Обучение с подкреплением на основе обратной связи от человека, ключевой этап настройки современных языковых моделей вроде ChatGPT.
Unobserved Confounder
Скрытая переменная, которая влияет и на действия эксперта, и на результат, но не видна обучаемому алгоритму.
📊 Цифры
🗓 Хронология
  1. 2021-2024 Гокул Свами проходит обучение в PhD-программе Университета Карнеги-Меллона.
  2. 2024 Презентация статьи об инверсном RL без использования RL на конференции ICML.
⚖️ Другая сторона
Искусственный интеллект Gokul Swamy Inverse Reinforcement Learning RLHF Causal Inference Autonomous Vehicles