Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров

В новом выпуске The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Сергеем Левиным, адъюнкт-профессором Калифорнийского университета в Беркли и исследователем Google. Темой обсуждения стали ключевые тренды в обучении с подкреплением (Reinforcement Learning, RL) за 2022 год и прогнозы на 2023-й. В центре внимания — переход от простых систем обратной связи в языковых моделях к сложным последовательным решениям, создание «фундаментальных моделей» для робототехники и решение фундаментальных проблем стабильности RL-алгоритмов.

🤖 RLHF: Почему ChatGPT — это только первый шаг 1:30

Одной из главных тем года стало применение обучения с подкреплением на основе обратной связи от человека (RLHF). По словам Сергея Левина, успех ChatGPT заставил сообщество признать центральную роль RL в развитии языковых моделей . Однако текущие методы используют лишь малую часть потенциала этой технологии.

Гость выделяет два измерения в RL:

Награда (Reward): использование фидбека для улучшения ответов.
Время (Time): способность рассуждать о последовательных процессах.

Современные системы, такие как ChatGPT, по мнению Левина, фокусируются почти исключительно на награде, игнорируя временной аспект . В техническом смысле они решают «задачу о бандитах» (bandit problem) — одношаговую оптимизацию, где модель генерирует весь ответ целиком, получает оценку и на этом эпизод заканчивается .

Из-за отсутствия последовательного мышления современные чат-боты имеют ряд недостатков:

Отсутствие уточняющих вопросов: модель редко пытается прояснить запрос пользователя, чтобы лучше помочь ему в будущем .
Сложность в играх с планированием: Левин и Чаррингтон отметили, что ChatGPT практически невозможно заставить играть в «20 вопросов», так как модель стремится выдать всё сразу, а не вести стратегический диалог .
Ограниченность в переговорах: в реальном общении (например, при покупке дома) человек может сказать что-то неоптимальное сейчас, чтобы получить информацию и выиграть в конце, — текущие LLM на это не способны .

💬 От предпочтений к результатам: Будущее диалоговых систем 10:01

Сергей Левин выражает надежду, что в будущем RL в языке выйдет за рамки простого следования предпочтениям пользователей. «Покупатель не всегда знает, чего хочет», — шутит исследователь . Он предлагает переходить к оптимизации конкретных исходов (outcomes):

Техподдержка: целью должно быть решение проблемы (например, исправление драйвера), а не просто вежливый ответ, который понравился пользователю .
Образование: ИИ-учитель может оптимизировать терпение и вовлеченность студента в долгосрочной перспективе .

Для реализации этого требуется решение проблемы «назначения кредита» (credit assignment) — понимания того, какая именно реплика в середине долгого диалога привела к успеху в конце .

Левин упоминает несколько важных работ в этом направлении:

Исследование Наташи Джейкс (Natasha Jakes), которая обучала чат-ботов оптимизировать не предпочтения, а «сентимент» (позитивную реакцию) собеседника .
Работу своей группы в Беркли — Implicit Language Q-learning (ILQL), представленную Чарли Снеллом (Charlie Snell). Этот метод применяет офлайн-RL к токенам языка, рассматривая каждый токен как отдельное решение для достижения долгосрочной награды .
Бенчмарк Visual Dialogue от лаборатории Друва Батры (Dhruv Batra), где агент должен задавать вопросы об изображении, чтобы идентифицировать его .

♟️ Кейс Diplomacy и «тесная связка» со стратегией 18:28

Обсуждая проект Cicero от Meta (игра в «Дипломатию»), Левин отмечает его вдохновляющие результаты, но критикует архитектуру за «декомпозицию» . В Cicero стратегический слой (похожий на AlphaGo) отделен от языкового слоя.

По мнению гостя, это лишает систему преимуществ:

Языковая модель обладает глубокими знаниями о человеческом поведении, которые не используются стратегическим движком .
Левин считает, что более тесная интеграция (tighter coupling), где сама языковая модель принимает решения, была бы эффективнее .

Он также рекомендует обратить внимание на работы Ноама Брауна (Noam Brown) по играм с неполной информацией (покер, дипломатия), считая их фундамент более глубоким, чем у AlphaGo .

🤖 Робототехника: Три пути к «фундаментальным моделям» 28:14

В робототехнике сейчас наблюдается попытка повторить успех больших языковых моделей. Однако существует спор о том, откуда брать данные. Сергей Левин выделяет три основные философские школы :

Симуляция: успешна для локомоции (ходьбы), так как там важна физическая сложность. Но для манипуляций (взаимодействия с предметами) она буксует из-за «бутылочного горлышка создания контента» — вручную моделировать миллионы объектов слишком дорого .
Данные из интернета (видео): использование YouTube-роликов или датасета Ego4D (перспективные видео от первого лица). Это позволяет выучить визуальные представления, но, по мнению Левина, пока неясно, обучают ли они поведению или только распознаванию объектов .
Масштабирование данных от реальных роботов: подход, который защищает сам Левин. Он считает, что если роботы станут полезными, их будет много, и данных будет достаточно (как у Tesla) .

Прорыв Google: RT-1 (Robotics Transformer) 40:09

Левин подробно рассказал о проекте RT-1, над которым он работал в Google. Это «индустриальный пайплайн» сбора данных :

Собрано более 100 000 испытаний (trials) в кухонных условиях.
Используется архитектура Transformer для объединения текста (инструкций), изображений и действий в единый поток токенов .
Важный результат: объединение данных от разных роботов (манипулятор Everyday Robots и рука Kuka) позволило «кухонному» роботу научиться задачам сортировки из другого датасета без специального переучивания .

📉 Офлайн-RL: От теории к практике 52:18

Офлайн-RL (обучение на уже собранных данных без взаимодействия в реальном времени) за последние три года превратилось из теоретической области в практический инструмент.

Достижения в этой сфере:

Разработаны стабильные алгоритмы: IQL (Implicit Q-learning) и CQL (Conservative Q-learning) .
Spotify применяет офлайн-RL для рекомендаций (интервью с Тони Джабарой) .
LinkedIn внедрил CQL в систему уведомлений, получив «явное измеримое улучшение» .

Почему RL такой хрупкий? 1:01:26

Левин объясняет, почему обучение с подкреплением часто работает нестабильно по сравнению с обычным глубоким обучением. В обычном обучении (Supervised Learning) используется градиентный спуск (SGD), который обладает «магическим» эффектом неявной регуляризации — это позволяет огромным моделям не переобучаться .

В RL (особенно в обучении Q-функции) используется не градиентный спуск, а итерация по неподвижной точке (fixed point iteration) . Исследования группы Левина и других (например, Шимона Уитсона) показывают, что «магия» SGD в этом случае не работает, что и вызывает хрупкость систем . Однако понимание этой причины дает надежду на создание более надежных архитектур в будущем.

🔮 Прогнозы на 2023 год 1:05:23

В завершение беседы Сергей Левин озвучил три прогноза:

RL в языке: переход языковых моделей к оптимизации долгосрочных (long-horizon) целей в диалоге .
Общие модели роботов: появление моделей поведения, которыми исследовательские группы смогут реально делиться друг с другом .
Масштабное применение офлайн-RL: первый по-настоящему крупный коммерческий успех технологии, вероятно, в рекомендательных системах или веб-приложениях .