Сергей Левин об эволюции обучения с подкреплением: от «бандитов» в ChatGPT до роботов-трансформеров

The TWIML AI Podcast 9,9 тыс. 1 ч 7 мин 5 мин 16.01.2023
Главное

В новом выпуске The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Сергеем Левиным, адъюнкт-профессором Калифорнийского университета в Беркли и исследователем Google. Темой обсуждения стали ключевые тренды в обучении с подкреплением (Reinforcement Learning, RL) за 2022 год и прогнозы на 2023-й. В центре внимания — переход от простых систем обратной связи в языковых моделях к сложным последовательным решениям, создание «фундаментальных моделей» для робототехники и решение фундаментальных проблем стабильности RL-алгоритмов.

🤖 RLHF: Почему ChatGPT — это только первый шаг 1:30

Одной из главных тем года стало применение обучения с подкреплением на основе обратной связи от человека (RLHF). По словам Сергея Левина, успех ChatGPT заставил сообщество признать центральную роль RL в развитии языковых моделей . Однако текущие методы используют лишь малую часть потенциала этой технологии.

Гость выделяет два измерения в RL:

  1. Награда (Reward): использование фидбека для улучшения ответов.
  2. Время (Time): способность рассуждать о последовательных процессах.

Современные системы, такие как ChatGPT, по мнению Левина, фокусируются почти исключительно на награде, игнорируя временной аспект . В техническом смысле они решают «задачу о бандитах» (bandit problem) — одношаговую оптимизацию, где модель генерирует весь ответ целиком, получает оценку и на этом эпизод заканчивается .

Из-за отсутствия последовательного мышления современные чат-боты имеют ряд недостатков:

💬 От предпочтений к результатам: Будущее диалоговых систем 10:01

Сергей Левин выражает надежду, что в будущем RL в языке выйдет за рамки простого следования предпочтениям пользователей. «Покупатель не всегда знает, чего хочет», — шутит исследователь . Он предлагает переходить к оптимизации конкретных исходов (outcomes):

Для реализации этого требуется решение проблемы «назначения кредита» (credit assignment) — понимания того, какая именно реплика в середине долгого диалога привела к успеху в конце .

Левин упоминает несколько важных работ в этом направлении:

♟️ Кейс Diplomacy и «тесная связка» со стратегией 18:28

Обсуждая проект Cicero от Meta (игра в «Дипломатию»), Левин отмечает его вдохновляющие результаты, но критикует архитектуру за «декомпозицию» . В Cicero стратегический слой (похожий на AlphaGo) отделен от языкового слоя.

По мнению гостя, это лишает систему преимуществ:

Он также рекомендует обратить внимание на работы Ноама Брауна (Noam Brown) по играм с неполной информацией (покер, дипломатия), считая их фундамент более глубоким, чем у AlphaGo .

🤖 Робототехника: Три пути к «фундаментальным моделям» 28:14

В робототехнике сейчас наблюдается попытка повторить успех больших языковых моделей. Однако существует спор о том, откуда брать данные. Сергей Левин выделяет три основные философские школы :

  1. Симуляция: успешна для локомоции (ходьбы), так как там важна физическая сложность. Но для манипуляций (взаимодействия с предметами) она буксует из-за «бутылочного горлышка создания контента» — вручную моделировать миллионы объектов слишком дорого .
  2. Данные из интернета (видео): использование YouTube-роликов или датасета Ego4D (перспективные видео от первого лица). Это позволяет выучить визуальные представления, но, по мнению Левина, пока неясно, обучают ли они поведению или только распознаванию объектов .
  3. Масштабирование данных от реальных роботов: подход, который защищает сам Левин. Он считает, что если роботы станут полезными, их будет много, и данных будет достаточно (как у Tesla) .

Прорыв Google: RT-1 (Robotics Transformer) 40:09

Левин подробно рассказал о проекте RT-1, над которым он работал в Google. Это «индустриальный пайплайн» сбора данных :

📉 Офлайн-RL: От теории к практике 52:18

Офлайн-RL (обучение на уже собранных данных без взаимодействия в реальном времени) за последние три года превратилось из теоретической области в практический инструмент.

Достижения в этой сфере:

Почему RL такой хрупкий? 1:01:26

Левин объясняет, почему обучение с подкреплением часто работает нестабильно по сравнению с обычным глубоким обучением. В обычном обучении (Supervised Learning) используется градиентный спуск (SGD), который обладает «магическим» эффектом неявной регуляризации — это позволяет огромным моделям не переобучаться .

В RL (особенно в обучении Q-функции) используется не градиентный спуск, а итерация по неподвижной точке (fixed point iteration) . Исследования группы Левина и других (например, Шимона Уитсона) показывают, что «магия» SGD в этом случае не работает, что и вызывает хрупкость систем . Однако понимание этой причины дает надежду на создание более надежных архитектур в будущем.

🔮 Прогнозы на 2023 год 1:05:23

В завершение беседы Сергей Левин озвучил три прогноза:

  1. RL в языке: переход языковых моделей к оптимизации долгосрочных (long-horizon) целей в диалоге .
  2. Общие модели роботов: появление моделей поведения, которыми исследовательские группы смогут реально делиться друг с другом .
  3. Масштабное применение офлайн-RL: первый по-настоящему крупный коммерческий успех технологии, вероятно, в рекомендательных системах или веб-приложениях .
💬 Цитаты

«В RL есть два измерения: награда и время. Текущие техники бьют почти исключительно в одно из них.»

Сергей Левин 03:00

«Языковая модель знает, как люди нажимают кнопки на клавиатуре — в этом кроется глубокое понимание человеческого поведения.»

Сергей Левин 12:17

«Если у нас будет полезный робот, их будет много, и тогда проблема данных исчезнет сама собой.»

Сергей Левин 33:14
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Обучение с подкреплением на основе отзывов людей, используется для настройки ИИ под человеческие предпочтения.
Offline RL
Метод обучения агента на заранее собранных статических данных без возможности онлайн-взаимодействия со средой.
Bandit Problem
Упрощенная задача обучения с подкреплением, где решение принимается в один шаг без учета будущих состояний.
Fixed Point Iteration
Математический метод, используемый в RL для поиска оптимальной функции ценности, отличный от прямого градиентного спуска.
📊 Цифры
🗓 Хронология
  1. 2019 Последняя крупная встреча Левина и Чаррингтона на конференции NeurIPS перед этим интервью.
  2. Ноябрь 2022 Выход ChatGPT, изменивший восприятие роли RL в языковых моделях.
  3. Декабрь 2022 Публикация работы Google по Robotics Transformer (RT-1).
⚖️ Другая сторона
Искусственный интеллект Сергей Левин Reinforcement Learning RLHF Offline RL Robotics Transformer