Гокул Свами: «Многие маршруты в Google Maps рассчитываются через инверсное обучение с подкреплением»

В новом выпуске подкаста TWIML AI ведущий Сэм Черрингтон обсуждает с Гокулом Свами, докторантом Института робототехники Университета Карнеги-Меллона (CMU), прорывные методы в области обучения с подкреплением и имитационного обучения. Основное внимание уделено тому, как научить ИИ принимать сложные решения, минимизируя вычислительные затраты и учитывая факторы, которые робот или алгоритм не могут наблюдать напрямую.

🧠 Инверсное обучение с подкреплением без RL 4:10

Одной из центральных тем беседы стала работа Гокула Свами «Inverse Reinforcement Learning Without Reinforcement Learning», представленная на конференции ICML. Суть инверсного обучения с подкреплением (Inverse RL) заключается в том, чтобы на основе действий эксперта (например, человека-водителя) восстановить функцию вознаграждения — понять, что именно оптимизирует эксперт .

Гокул отмечает, что сформулировать правила вождения вручную крайне сложно: трудно математически выразить, насколько соблюдение скоростного режима важнее, чем дистанция до соседнего автомобиля . Однако традиционный подход к Inverse RL требует многократного решения тяжелых задач прямого обучения с подкреплением (RL) на каждом шаге . Это делает процесс крайне неэффективным с точки зрения вычислений и объема необходимых данных.

Предложенный Свами метод решает эту проблему за счет изменения подхода к исследованию среды (exploration):

Отказ от лишнего поиска: В традиционном RL агент исследует все возможные пути (как в бинарном дереве), чтобы найти награду. Свами предлагает фокусироваться только на состояниях, близких к тем, в которых находился эксперт .
Контролируемое исследование: Метод не исключает исследование среды полностью, чтобы сохранить устойчивость к ошибкам, но ограничивает его областью «путевых точек» (waypoints) эксперта .
Эффективность: В симуляциях (MuJoCo, среды OpenAI Gym) этот подход показал значительное ускорение обучения при управлении четвероногими роботами в лабиринтах .

🚗 Прикладное применение в беспилотниках и Google Maps 15:45

Хотя исследования проводились в симуляторах, Гокул Свами видит огромный потенциал для реального сектора. По его словам, инверсное обучение с подкреплением уже является фундаментом индустрии автономного транспорта .

Ключевые сферы применения:

Google Maps: Свами сообщил, что многие маршруты в Google Maps сейчас рассчитываются с помощью алгоритмов Inverse RL . Его метод может радикально снизить затраты ресурсов на эти вычисления.
Беспилотные автомобили: Обучение в симуляции идеально подходит для предложенного алгоритма, так как позволяет легко «сбрасывать» (reset) состояние системы в любую точку маршрута эксперта .
Большие языковые модели (LLM): В процессе RLHF (обучение с подкреплением на основе отзывов людей) используется дорогая процедура RL. Свами полагает, что его метод ускорит файн-тюнинг моделей, значительно экономя вычислительные мощности .

🩺 Принятие решений при неполных данных (Каузальный подход) 19:16

Другая работа Свами посвящена проблеме «скрытых искажающих факторов» (unobserved confounders). В реальном мире агент (например, ИИ-помощник врача) часто не видит всего, что видел эксперт-человек.

Гокул приводит пример с диагностикой рака:

Врач видит результаты теста и назначает химиотерапию только тем, кому она нужна .
ИИ видит только факт назначения лекарства и то, что пациенту стало лучше.
Без понимания результатов теста (которые ИИ не наблюдает) алгоритм может сделать ошибочный вывод, что химиотерапию нужно назначать всем подряд .

Для решения этой задачи Свами применяет методы каузальной инференции (причинно-следственного вывода), включая коррекцию по «черному ходу» (backdoor adjustment) Джуды Перла и прокси-коррекцию из эконометрики . Это позволяет алгоритму фильтровать влияние ненаблюдаемых факторов и делать верные прогнозы даже при ограниченном наборе данных .

🛡️ Обучение общим правилам безопасности 27:31

Третье направление исследований касается того, как научить ИИ «тому, чего делать не следует», не перечисляя все запреты вручную. Свами утверждает, что у многих задач есть общие ограничения безопасности: робот не должен поджигать кухню ни при приготовлении сендвича, ни при уборке стола .

Основные идеи подхода:

Анализ субоптимальности: Если эксперт действует не максимально быстро, это может означать наличие скрытого запрета (например, требования не сбивать другие машины) .
Многозадачные данные: Чтобы ИИ не стал слишком консервативным и не считал небезопасным всё, чего он просто никогда не видел, Свами предлагает использовать данные из множества разных задач. Если во всех случаях кухня остается целой, робот учится выделять это как общее ограничение .
Результаты: В одном из экспериментов четырехногому агенту удалось восстановить структуру стен лабиринта, ни разу с ними не столкнувшись, — только на основе наблюдения за траекториями других агентов .

🚀 Будущее: Рекомендательные системы и социальный выбор 34:54

В завершение беседы Гокул Свами поделился планами на будущее. Он планирует сосредоточиться на проблемах RLHF и вопросе «выравнивания» (alignment) моделей . Главный технический вызов здесь — как агрегировать предпочтения множества разных людей (разметчиков), которые могут противоречить друг другу. Для этого Свами планирует использовать теорию социального выбора и экономические модели .

Также его интересует сфера рекомендаций контента. Ссылаясь на опыт Spotify, он отмечает, что рекомендации подкастов и музыки уже переходят к моделям последовательного принятия решений . Свами уверен, что его алгоритмы помогут лучше учитывать скрытые предпочтения пользователей, которые меняются в процессе взаимодействия с системой, даже если эти предпочтения нельзя измерить напрямую .