# Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров

Источник: https://www.youtube.com/watch?v=dvO_jR1B5rs
Канал: The TWIML AI Podcast
Опубликовано: 16.01.2023

---

В новом выпуске **The TWIML AI Podcast** ведущий Сэм Чаррингтон беседует с **Сергеем Левиным**, адъюнкт-профессором Калифорнийского университета в Беркли и исследователем Google. Темой обсуждения стали ключевые тренды в обучении с подкреплением (Reinforcement Learning, RL) за 2022 год и прогнозы на 2023-й. В центре внимания — переход от простых систем обратной связи в языковых моделях к сложным последовательным решениям, создание «фундаментальных моделей» для робототехники и решение фундаментальных проблем стабильности RL-алгоритмов.

## 🤖 RLHF: Почему ChatGPT — это только первый шаг
[[JUMP:01:30]]

Одной из главных тем года стало применение обучения с подкреплением на основе обратной связи от человека (RLHF). По словам **Сергея Левина**, успех ChatGPT заставил сообщество признать центральную роль RL в развитии языковых моделей [02:10]. Однако текущие методы используют лишь малую часть потенциала этой технологии.

Гость выделяет два измерения в RL:

1.  **Награда (Reward):** использование фидбека для улучшения ответов.
2.  **Время (Time):** способность рассуждать о последовательных процессах.

Современные системы, такие как ChatGPT, по мнению Левина, фокусируются почти исключительно на награде, игнорируя временной аспект [03:06]. В техническом смысле они решают «задачу о бандитах» (bandit problem) — одношаговую оптимизацию, где модель генерирует весь ответ целиком, получает оценку и на этом эпизод заканчивается [06:43].

Из-за отсутствия последовательного мышления современные чат-боты имеют ряд недостатков:

*   **Отсутствие уточняющих вопросов:** модель редко пытается прояснить запрос пользователя, чтобы лучше помочь ему в будущем [05:08].
*   **Сложность в играх с планированием:** Левин и Чаррингтон отметили, что ChatGPT практически невозможно заставить играть в «20 вопросов», так как модель стремится выдать всё сразу, а не вести стратегический диалог [06:04].
*   **Ограниченность в переговорах:** в реальном общении (например, при покупке дома) человек может сказать что-то неоптимальное сейчас, чтобы получить информацию и выиграть в конце, — текущие LLM на это не способны [04:14].

## 💬 От предпочтений к результатам: Будущее диалоговых систем
[[JUMP:10:01]]

**Сергей Левин** выражает надежду, что в будущем RL в языке выйдет за рамки простого следования предпочтениям пользователей. «Покупатель не всегда знает, чего хочет», — шутит исследователь [10:13]. Он предлагает переходить к оптимизации конкретных исходов (outcomes):

*   **Техподдержка:** целью должно быть решение проблемы (например, исправление драйвера), а не просто вежливый ответ, который понравился пользователю [10:41].
*   **Образование:** ИИ-учитель может оптимизировать терпение и вовлеченность студента в долгосрочной перспективе [13:10].

Для реализации этого требуется решение проблемы «назначения кредита» (credit assignment) — понимания того, какая именно реплика в середине долгого диалога привела к успеху в конце [10:54].

Левин упоминает несколько важных работ в этом направлении:

*   Исследование **Наташи Джейкс** (Natasha Jakes), которая обучала чат-ботов оптимизировать не предпочтения, а «сентимент» (позитивную реакцию) собеседника [14:05].
*   Работу своей группы в Беркли — **Implicit Language Q-learning (ILQL)**, представленную **Чарли Снеллом** (Charlie Snell). Этот метод применяет офлайн-RL к токенам языка, рассматривая каждый токен как отдельное решение для достижения долгосрочной награды [15:25].
*   Бенчмарк **Visual Dialogue** от лаборатории **Друва Батры** (Dhruv Batra), где агент должен задавать вопросы об изображении, чтобы идентифицировать его [17:12].

## ♟️ Кейс Diplomacy и «тесная связка» со стратегией
[[JUMP:18:28]]

Обсуждая проект **Cicero** от Meta (игра в «Дипломатию»), Левин отмечает его вдохновляющие результаты, но критикует архитектуру за «декомпозицию» [20:14]. В Cicero стратегический слой (похожий на AlphaGo) отделен от языкового слоя.

По мнению гостя, это лишает систему преимуществ:

*   Языковая модель обладает глубокими знаниями о человеческом поведении, которые не используются стратегическим движком [21:20].
*   Левин считает, что более тесная интеграция (tighter coupling), где сама языковая модель принимает решения, была бы эффективнее [21:08].

Он также рекомендует обратить внимание на работы **Ноама Брауна** (Noam Brown) по играм с неполной информацией (покер, дипломатия), считая их фундамент более глубоким, чем у AlphaGo [22:36].

## 🤖 Робототехника: Три пути к «фундаментальным моделям»
[[JUMP:28:14]]

В робототехнике сейчас наблюдается попытка повторить успех больших языковых моделей. Однако существует спор о том, откуда брать данные. **Сергей Левин** выделяет три основные философские школы [33:54]:

1.  **Симуляция:** успешна для локомоции (ходьбы), так как там важна физическая сложность. Но для манипуляций (взаимодействия с предметами) она буксует из-за «бутылочного горлышка создания контента» — вручную моделировать миллионы объектов слишком дорого [31:55].
2.  **Данные из интернета (видео):** использование YouTube-роликов или датасета **Ego4D** (перспективные видео от первого лица). Это позволяет выучить визуальные представления, но, по мнению Левина, пока неясно, обучают ли они поведению или только распознаванию объектов [36:22].
3.  **Масштабирование данных от реальных роботов:** подход, который защищает сам Левин. Он считает, что если роботы станут полезными, их будет много, и данных будет достаточно (как у Tesla) [33:02].

### Прорыв Google: RT-1 (Robotics Transformer)
[[JUMP:40:09]]

Левин подробно рассказал о проекте **RT-1**, над которым он работал в Google. Это «индустриальный пайплайн» сбора данных [41:14]:

*   Собрано более **100 000 испытаний** (trials) в кухонных условиях.
*   Используется архитектура Transformer для объединения текста (инструкций), изображений и действий в единый поток токенов [43:47].
*   **Важный результат:** объединение данных от разных роботов (манипулятор Everyday Robots и рука Kuka) позволило «кухонному» роботу научиться задачам сортировки из другого датасета без специального переучивания [42:19].

## 📉 Офлайн-RL: От теории к практике
[[JUMP:52:18]]

Офлайн-RL (обучение на уже собранных данных без взаимодействия в реальном времени) за последние три года превратилось из теоретической области в практический инструмент.

Достижения в этой сфере:

*   Разработаны стабильные алгоритмы: **IQL** (Implicit Q-learning) и **CQL** (Conservative Q-learning) [54:12].
*   **Spotify** применяет офлайн-RL для рекомендаций (интервью с Тони Джабарой) [54:52].
*   **LinkedIn** внедрил CQL в систему уведомлений, получив «явное измеримое улучшение» [55:59].

### Почему RL такой хрупкий?
[[JUMP:1:01:26]]

Левин объясняет, почему обучение с подкреплением часто работает нестабильно по сравнению с обычным глубоким обучением. В обычном обучении (Supervised Learning) используется градиентный спуск (SGD), который обладает «магическим» эффектом неявной регуляризации — это позволяет огромным моделям не переобучаться [1:02:30].

В RL (особенно в обучении Q-функции) используется не градиентный спуск, а **итерация по неподвижной точке** (fixed point iteration) [1:03:08]. Исследования группы Левина и других (например, Шимона Уитсона) показывают, что «магия» SGD в этом случае не работает, что и вызывает хрупкость систем [1:03:21]. Однако понимание этой причины дает надежду на создание более надежных архитектур в будущем.

## 🔮 Прогнозы на 2023 год
[[JUMP:1:05:23]]

В завершение беседы **Сергей Левин** озвучил три прогноза:

1.  **RL в языке:** переход языковых моделей к оптимизации долгосрочных (long-horizon) целей в диалоге [1:05:35].
2.  **Общие модели роботов:** появление моделей поведения, которыми исследовательские группы смогут реально делиться друг с другом [1:05:48].
3.  **Масштабное применение офлайн-RL:** первый по-настоящему крупный коммерческий успех технологии, вероятно, в рекомендательных системах или веб-приложениях [1:06:13].