Как превратить обучение с подкреплением в задачу для GPT: разбор Decision Transformer

В современном машинном обучении наблюдается любопытная тенденция: архитектура Transformer, изначально созданная для перевода текстов, постепенно захватывает все новые области — от компьютерного зрения до биологии. В свежем обзоре исследователь Янник Килчер (Yannic Kilcher) анализирует фундаментальную работу исследователей из Калифорнийского университета в Беркли, Facebook AI Research и Google Brain под названием «Decision Transformer: Reinforcement Learning via Sequence Modeling». Основная идея авторов радикальна: они предлагают полностью отказаться от классических механизмов обучения с подкреплением (RL), таких как градиенты стратегии или Q-обучение, и заменить их чистым моделированием последовательностей.

🤖 RL как задача предсказания следующего токена 0:00

Традиционно обучение с подкреплением строится на взаимодействии агента со средой, где он максимизирует вознаграждение методом проб и ошибок . Однако в сценарии Offline RL ситуация иная: агент не может взаимодействовать с миром, а получает лишь готовый набор данных с записями действий других агентов .

Decision Transformer (DT) подходит к этой задаче как к стандартному обучению языковой модели вроде GPT. Вместо того чтобы вычислять ценность состояний, модель обучается предсказывать следующее действие, основываясь на трех типах входных данных :

Прошлые состояния (States);
Совершенные действия (Actions);
Желаемое будущее вознаграждение (Returns-to-go).

По мнению Килчера, ключевое новшество здесь — обусловливание (conditioning) на вознаграждении. Мы не просим модель «найти лучший путь», мы говорим ей: «Вот история событий, и я хочу получить в итоге +21 очко. Какое действие мне совершить сейчас, чтобы прийти к такому результату?» .

🧠 Прощай, динамическое программирование: почему это работает? 14:12

Одной из сложнейших проблем в RL является credit assignment (назначение «кредита» доверия за успех) . Если вы выиграли в шахматы, какая именно комбинация ходов 20 шагов назад привела к победе? Классические алгоритмы используют временную разность (Temporal Difference, TD) и уравнение Белломана, чтобы постепенно «прокачивать» ценность от финала к началу .

Килчер подчеркивает, что Decision Transformer полностью отбрасывает эти сложности:

Внимание вместо рекурсии: Благодаря механизму Self-Attention, Transformer может связать текущее действие с событием в самом начале эпизода за один шаг, если оно попадает в контекстное окно .
Отсутствие дисконтирования: Авторы утверждают, что им не нужны коэффициенты дисконтирования (gamma), которые в обычном RL заставляют агента предпочитать немедленные награды будущим ради вычислительной стабильности .
Использование GPT-архитектуры: Модель просто запоминает закономерности в данных. Если в обучающей выборке агент достигал высокого вознаграждения после определенной последовательности действий, DT просто воспроизводит это поведение .

🧪 Эксперименты: Atari, Gym и задача с ключом 40:37

В ходе тестирования Decision Transformer сравнивали с текущим лидером офлайн-обучения — алгоритмом Conservative Q-Learning (CQL). Результаты показали, что DT идет вровень или превосходит его в играх Atari (таких как Pong или Seaquest) и симуляциях OpenAI Gym .

Особый интерес вызывает эксперимент Key-to-Door :

Агенту нужно взять ключ в первой комнате, пройти через пустую «комнату-дистрактор» и открыть дверь в третьей.
Рекуррентные сети (LSTM) часто «забывают» о ключе, пока идут через пустую комнату .
Transformer, по словам Килчера, сохраняет информацию о ключе в своем контексте, не теряя сигнал на протяжении всего пути .

⚠️ Критика и «подводные камни» метода 47:23

Несмотря на впечатляющие результаты, Янник Килчер высказывает ряд серьезных сомнений по поводу практического применения DT.

Проблема «Оракула вознаграждений»: Чтобы агент работал эффективно, пользователь должен заранее знать, какое вознаграждение технически достижимо в этой среде. Если в игре Pong максимум — 21 очко, а вы попросите модель принести 100, её производительность может парадоксально упасть, а не просто ограничиться максимумом . Модель хорошо «интерполирует» то, что видела, но плохо справляется с запросами, выходящими за рамки обучающих данных .

Ограниченность контекста: Килчер отмечает, что хваленая способность Transformer обходиться без динамического программирования ограничена длиной контекстного окна. Если критически важное действие произошло 1000 шагов назад, а окно модели — 512, Transformer окажется бессилен, в то время как классические TD-методы теоретически способны пробросить сигнал через всю траекторию .

Тонкая настройка гиперпараметров: Ведущий обратил внимание на то, что для разных игр авторы использовали разные настройки: например, для Pong длину контекста увеличивали, а для других игр — уменьшали . Также коэффициенты желаемого вознаграждения подбирались на основе результатов конкурентов (умножение результата CQL на 1.5), что Килчер находит «несколько сомнительным» с точки зрения чистоты эксперимента .

🏁 Вердикт: RL вверх тормашками 22:28

Кичлер проводит параллели между Decision Transformer и работой Юргена Шмидхубера (Jürgen Schmidhuber) «Upside Down RL» . Идея «превращения RL в обучение с учителем» не нова, но использование мощных трансформеров дает ей второе дыхание.

По мнению Килчера, Decision Transformer — это шаг в сторону упрощения систем ИИ: вместо того чтобы изобретать сложные математические функции ценности, мы просто скармливаем данные в огромную «запоминающую машину», которая учится сопоставлять наши желания с прошлым опытом человечества (или других алгоритмов) . Однако для решения задач с по-настоящему длинными временными горизонтами классические методы RL, вероятно, все еще остаются незаменимыми .