Как превратить обучение с подкреплением в задачу для GPT: разбор Decision Transformer

Yannic Kilcher 69,7 тыс. 56 мин 4 мин 05.06.2021
Главное

В современном машинном обучении наблюдается любопытная тенденция: архитектура Transformer, изначально созданная для перевода текстов, постепенно захватывает все новые области — от компьютерного зрения до биологии. В свежем обзоре исследователь Янник Килчер (Yannic Kilcher) анализирует фундаментальную работу исследователей из Калифорнийского университета в Беркли, Facebook AI Research и Google Brain под названием «Decision Transformer: Reinforcement Learning via Sequence Modeling». Основная идея авторов радикальна: они предлагают полностью отказаться от классических механизмов обучения с подкреплением (RL), таких как градиенты стратегии или Q-обучение, и заменить их чистым моделированием последовательностей.

🤖 RL как задача предсказания следующего токена 0:00

Традиционно обучение с подкреплением строится на взаимодействии агента со средой, где он максимизирует вознаграждение методом проб и ошибок . Однако в сценарии Offline RL ситуация иная: агент не может взаимодействовать с миром, а получает лишь готовый набор данных с записями действий других агентов .

Decision Transformer (DT) подходит к этой задаче как к стандартному обучению языковой модели вроде GPT. Вместо того чтобы вычислять ценность состояний, модель обучается предсказывать следующее действие, основываясь на трех типах входных данных :

По мнению Килчера, ключевое новшество здесь — обусловливание (conditioning) на вознаграждении. Мы не просим модель «найти лучший путь», мы говорим ей: «Вот история событий, и я хочу получить в итоге +21 очко. Какое действие мне совершить сейчас, чтобы прийти к такому результату?» .

🧠 Прощай, динамическое программирование: почему это работает? 14:12

Одной из сложнейших проблем в RL является credit assignment (назначение «кредита» доверия за успех) . Если вы выиграли в шахматы, какая именно комбинация ходов 20 шагов назад привела к победе? Классические алгоритмы используют временную разность (Temporal Difference, TD) и уравнение Белломана, чтобы постепенно «прокачивать» ценность от финала к началу .

Килчер подчеркивает, что Decision Transformer полностью отбрасывает эти сложности:

  1. Внимание вместо рекурсии: Благодаря механизму Self-Attention, Transformer может связать текущее действие с событием в самом начале эпизода за один шаг, если оно попадает в контекстное окно .
  2. Отсутствие дисконтирования: Авторы утверждают, что им не нужны коэффициенты дисконтирования (gamma), которые в обычном RL заставляют агента предпочитать немедленные награды будущим ради вычислительной стабильности .
  3. Использование GPT-архитектуры: Модель просто запоминает закономерности в данных. Если в обучающей выборке агент достигал высокого вознаграждения после определенной последовательности действий, DT просто воспроизводит это поведение .

🧪 Эксперименты: Atari, Gym и задача с ключом 40:37

В ходе тестирования Decision Transformer сравнивали с текущим лидером офлайн-обучения — алгоритмом Conservative Q-Learning (CQL). Результаты показали, что DT идет вровень или превосходит его в играх Atari (таких как Pong или Seaquest) и симуляциях OpenAI Gym .

Особый интерес вызывает эксперимент Key-to-Door :

⚠️ Критика и «подводные камни» метода 47:23

Несмотря на впечатляющие результаты, Янник Килчер высказывает ряд серьезных сомнений по поводу практического применения DT.

Проблема «Оракула вознаграждений»: Чтобы агент работал эффективно, пользователь должен заранее знать, какое вознаграждение технически достижимо в этой среде. Если в игре Pong максимум — 21 очко, а вы попросите модель принести 100, её производительность может парадоксально упасть, а не просто ограничиться максимумом . Модель хорошо «интерполирует» то, что видела, но плохо справляется с запросами, выходящими за рамки обучающих данных .

Ограниченность контекста: Килчер отмечает, что хваленая способность Transformer обходиться без динамического программирования ограничена длиной контекстного окна. Если критически важное действие произошло 1000 шагов назад, а окно модели — 512, Transformer окажется бессилен, в то время как классические TD-методы теоретически способны пробросить сигнал через всю траекторию .

Тонкая настройка гиперпараметров: Ведущий обратил внимание на то, что для разных игр авторы использовали разные настройки: например, для Pong длину контекста увеличивали, а для других игр — уменьшали . Также коэффициенты желаемого вознаграждения подбирались на основе результатов конкурентов (умножение результата CQL на 1.5), что Килчер находит «несколько сомнительным» с точки зрения чистоты эксперимента .

🏁 Вердикт: RL вверх тормашками 22:28

Кичлер проводит параллели между Decision Transformer и работой Юргена Шмидхубера (Jürgen Schmidhuber) «Upside Down RL» . Идея «превращения RL в обучение с учителем» не нова, но использование мощных трансформеров дает ей второе дыхание.

По мнению Килчера, Decision Transformer — это шаг в сторону упрощения систем ИИ: вместо того чтобы изобретать сложные математические функции ценности, мы просто скармливаем данные в огромную «запоминающую машину», которая учится сопоставлять наши желания с прошлым опытом человечества (или других алгоритмов) . Однако для решения задач с по-настоящему длинными временными горизонтами классические методы RL, вероятно, все еще остаются незаменимыми .

💬 Цитаты

«Эта работа выбрасывает почти всё из обучения с подкреплением в офлайн-сеттинге и заменяет это простым моделированием последовательностей.»

Янник Килчер 00:14

«Трансформеры почти безграничны в своей способности поглощать данные и учиться, вопрос лишь в том, помещается ли задача в контекст.»

Янник Килчер 27:08
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Offline RL
Метод обучения с подкреплением, где агент учится на фиксированном наборе данных без взаимодействия с живой средой.
Credit Assignment
Проблема определения того, какое именно действие в прошлом привело к текущему успеху или неудаче.
Return-to-go
Сумма будущих вознаграждений, которую агент ожидает или планирует получить до конца эпизода.
Conservative Q-Learning (CQL)
Алгоритм офлайн-RL, который борется с завышением оценки ценности действий в данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Decision Transformer Reinforcement Learning Offline RL Yannic Kilcher GPT