В новом выпуске The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с Сергеем Левиным, адъюнкт-профессором Калифорнийского университета в Беркли и исследователем Google. Темой обсуждения стали ключевые тренды в обучении с подкреплением (Reinforcement Learning, RL) за 2022 год и прогнозы на 2023-й. В центре внимания — переход от простых систем обратной связи в языковых моделях к сложным последовательным решениям, создание «фундаментальных моделей» для робототехники и решение фундаментальных проблем стабильности RL-алгоритмов.
🤖 RLHF: Почему ChatGPT — это только первый шаг 1:30
Одной из главных тем года стало применение обучения с подкреплением на основе обратной связи от человека (RLHF). По словам Сергея Левина, успех ChatGPT заставил сообщество признать центральную роль RL в развитии языковых моделей . Однако текущие методы используют лишь малую часть потенциала этой технологии.
Гость выделяет два измерения в RL:
- Награда (Reward): использование фидбека для улучшения ответов.
- Время (Time): способность рассуждать о последовательных процессах.
Современные системы, такие как ChatGPT, по мнению Левина, фокусируются почти исключительно на награде, игнорируя временной аспект . В техническом смысле они решают «задачу о бандитах» (bandit problem) — одношаговую оптимизацию, где модель генерирует весь ответ целиком, получает оценку и на этом эпизод заканчивается .
Из-за отсутствия последовательного мышления современные чат-боты имеют ряд недостатков:
- Отсутствие уточняющих вопросов: модель редко пытается прояснить запрос пользователя, чтобы лучше помочь ему в будущем .
- Сложность в играх с планированием: Левин и Чаррингтон отметили, что ChatGPT практически невозможно заставить играть в «20 вопросов», так как модель стремится выдать всё сразу, а не вести стратегический диалог .
- Ограниченность в переговорах: в реальном общении (например, при покупке дома) человек может сказать что-то неоптимальное сейчас, чтобы получить информацию и выиграть в конце, — текущие LLM на это не способны .
💬 От предпочтений к результатам: Будущее диалоговых систем 10:01
Сергей Левин выражает надежду, что в будущем RL в языке выйдет за рамки простого следования предпочтениям пользователей. «Покупатель не всегда знает, чего хочет», — шутит исследователь . Он предлагает переходить к оптимизации конкретных исходов (outcomes):
- Техподдержка: целью должно быть решение проблемы (например, исправление драйвера), а не просто вежливый ответ, который понравился пользователю .
- Образование: ИИ-учитель может оптимизировать терпение и вовлеченность студента в долгосрочной перспективе .
Для реализации этого требуется решение проблемы «назначения кредита» (credit assignment) — понимания того, какая именно реплика в середине долгого диалога привела к успеху в конце .
Левин упоминает несколько важных работ в этом направлении:
- Исследование Наташи Джейкс (Natasha Jakes), которая обучала чат-ботов оптимизировать не предпочтения, а «сентимент» (позитивную реакцию) собеседника .
- Работу своей группы в Беркли — Implicit Language Q-learning (ILQL), представленную Чарли Снеллом (Charlie Snell). Этот метод применяет офлайн-RL к токенам языка, рассматривая каждый токен как отдельное решение для достижения долгосрочной награды .
- Бенчмарк Visual Dialogue от лаборатории Друва Батры (Dhruv Batra), где агент должен задавать вопросы об изображении, чтобы идентифицировать его .
♟️ Кейс Diplomacy и «тесная связка» со стратегией 18:28
Обсуждая проект Cicero от Meta (игра в «Дипломатию»), Левин отмечает его вдохновляющие результаты, но критикует архитектуру за «декомпозицию» . В Cicero стратегический слой (похожий на AlphaGo) отделен от языкового слоя.
По мнению гостя, это лишает систему преимуществ:
- Языковая модель обладает глубокими знаниями о человеческом поведении, которые не используются стратегическим движком .
- Левин считает, что более тесная интеграция (tighter coupling), где сама языковая модель принимает решения, была бы эффективнее .
Он также рекомендует обратить внимание на работы Ноама Брауна (Noam Brown) по играм с неполной информацией (покер, дипломатия), считая их фундамент более глубоким, чем у AlphaGo .
🤖 Робототехника: Три пути к «фундаментальным моделям» 28:14
В робототехнике сейчас наблюдается попытка повторить успех больших языковых моделей. Однако существует спор о том, откуда брать данные. Сергей Левин выделяет три основные философские школы :
- Симуляция: успешна для локомоции (ходьбы), так как там важна физическая сложность. Но для манипуляций (взаимодействия с предметами) она буксует из-за «бутылочного горлышка создания контента» — вручную моделировать миллионы объектов слишком дорого .
- Данные из интернета (видео): использование YouTube-роликов или датасета Ego4D (перспективные видео от первого лица). Это позволяет выучить визуальные представления, но, по мнению Левина, пока неясно, обучают ли они поведению или только распознаванию объектов .
- Масштабирование данных от реальных роботов: подход, который защищает сам Левин. Он считает, что если роботы станут полезными, их будет много, и данных будет достаточно (как у Tesla) .
Прорыв Google: RT-1 (Robotics Transformer) 40:09
Левин подробно рассказал о проекте RT-1, над которым он работал в Google. Это «индустриальный пайплайн» сбора данных :
- Собрано более 100 000 испытаний (trials) в кухонных условиях.
- Используется архитектура Transformer для объединения текста (инструкций), изображений и действий в единый поток токенов .
- Важный результат: объединение данных от разных роботов (манипулятор Everyday Robots и рука Kuka) позволило «кухонному» роботу научиться задачам сортировки из другого датасета без специального переучивания .
📉 Офлайн-RL: От теории к практике 52:18
Офлайн-RL (обучение на уже собранных данных без взаимодействия в реальном времени) за последние три года превратилось из теоретической области в практический инструмент.
Достижения в этой сфере:
- Разработаны стабильные алгоритмы: IQL (Implicit Q-learning) и CQL (Conservative Q-learning) .
- Spotify применяет офлайн-RL для рекомендаций (интервью с Тони Джабарой) .
- LinkedIn внедрил CQL в систему уведомлений, получив «явное измеримое улучшение» .
Почему RL такой хрупкий? 1:01:26
Левин объясняет, почему обучение с подкреплением часто работает нестабильно по сравнению с обычным глубоким обучением. В обычном обучении (Supervised Learning) используется градиентный спуск (SGD), который обладает «магическим» эффектом неявной регуляризации — это позволяет огромным моделям не переобучаться .
В RL (особенно в обучении Q-функции) используется не градиентный спуск, а итерация по неподвижной точке (fixed point iteration) . Исследования группы Левина и других (например, Шимона Уитсона) показывают, что «магия» SGD в этом случае не работает, что и вызывает хрупкость систем . Однако понимание этой причины дает надежду на создание более надежных архитектур в будущем.
🔮 Прогнозы на 2023 год 1:05:23
В завершение беседы Сергей Левин озвучил три прогноза:
- RL в языке: переход языковых моделей к оптимизации долгосрочных (long-horizon) целей в диалоге .
- Общие модели роботов: появление моделей поведения, которыми исследовательские группы смогут реально делиться друг с другом .
- Масштабное применение офлайн-RL: первый по-настоящему крупный коммерческий успех технологии, вероятно, в рекомендательных системах или веб-приложениях .