Авторы ChibiT о переносе знаний из текстов Wikipedia в Offline RL

Yannic Kilcher 4,4 тыс. 44 мин 3 мин 28.02.2022
Главное

Может ли чтение Википедии сделать искусственный интеллект более эффективным в управлении роботами или прохождении игр? Янник Кильхер (Yannic Kilcher) обсуждает с авторами исследования «Can Wikipedia Help Offline Reinforcement Learning?» Машелем Ридом и Ютаро Ямадой парадоксальный, на первый взгляд, перенос знаний из лингвистики в робототехнику.

🧠 Суть концепции: лингвистический фундамент для RL 1:20

Основная идея работы заключается в проверке гипотезы: может ли предварительное обучение на текстах (Wikipedia) помочь в решении задач последовательного моделирования, в частности, в офлайн-обучении с подкреплением (Offline RL). Авторы отмечают, что использование языковых моделей дает существенный прирост производительности по сравнению с рандомной инициализацией весов.

Ключевые преимущества подхода:

⚡ От «субботнего эксперимента» к научному прорыву 3:06

Машель Рид признается, что идея возникла из аналогий с мультиязычным обучением. В NLP уже доказано, что модель, обученную на английском (BERT), можно успешно адаптировать для испанского или даже ранее не виданных языков. Обсуждая с коллегами отсутствие у Reinforcement Learning своего «момента BERT или GPT», авторы решили попробовать радикальный подход.

Первая реакция команды была скептической. Один из соавторов, Шен, изначально считал, что это «ни за что не сработает». Однако результаты первых экспериментов, проведенных Машелем Ридом в субботу утром, оказались настолько впечатляющими, что проект получил полноценное развитие.

📊 Сравнение моделей: ChibiT vs GPT-2 7:27

В ходе исследования сравнивались несколько архитектур на базе трансформеров:

  1. Decision Transformer (DT): Базовая модель, обучаемая с нуля на данных RL без пре-трейнинга.
  2. ChibiT: Компактная модель, предварительно обученная на языке («Chibi» в переводе с японского означает «маленький»).
  3. GPT-2: Полноразмерная языковая модель, которая в 100 раз больше ChibiT.

Результаты показали, что модели с языковым прошлым стабильно превосходят стандартный Decision Transformer. Однако возникла интересная аномалия: огромная GPT-2 далеко не всегда значительно обходила маленькую ChibiT. По мнению Машеля Рида, это может означать, что для RL важен не сам объем накопленных фактов, а базовая структура и логика иерархий, которую обе модели усваивают примерно одинаково.

🖼️ Почему изображения не заменяют текст 15:34

Исследователи также протестировали Image GPT (iGPT), но результаты оказались провальными. Ютаро Ямада объясняет это фундаментальной разницей в структуре данных:

👁️ Визуализация внимания: «Паттерн трех» 24:38

Одной из самых ярких частей интервью стал анализ карт внимания (attention maps) в моделях. В Decision Transformer входные данные подаются кортежами из трех элементов: (возврат, состояние, действие).

Наблюдения участников дискуссии:

🏎️ Скорость обучения и ресурсы 33:37

Вопреки стереотипам о прожорливости RL, данный метод оказался весьма доступным. Обучение проводилось на одной видеокарте NVIDIA V100 и занимало всего несколько часов.

Ускорение сходимости — это не результат оптимизации кода, а именно заслуга весов, полученных из Википедии. При этом авторы отмечают важный нюанс: во время инференса (работы модели) GPT-2 ожидаемо медленнее из-за своего размера.

🔮 Будущее: код, музыка и ко-трейнинг 42:02

В планах исследователей — попробовать другие модальности для пре-трейнинга: программный код, музыку и речь. Особый интерес представляет «совместное обучение» (co-training). В экспериментах выяснилось, что при обучении на траекториях RL способность модели понимать язык практически не деградирует. Это открывает путь к созданию универсальных агентов, способных одновременно читать инструкции и выполнять действия в сложной среде.

💬 Цитаты

«По сути, мы видим довольно значительный прирост в определенных областях по сравнению с обычной случайной инициализацией.»

Машель Рид 01:46

«Шен изначально считал, что это ни за что не сработает... но когда Машель показал результаты, он был в восторге.»

Ютаро Ямада 04:48
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Decision Transformer
Архитектура, рассматривающая задачу обучения с подкреплением как задачу предсказания следующего токена в последовательности.
Offline RL
Метод обучения агента на заранее собранных данных без возможности взаимодействовать со средой в процессе обучения.
Zero-shot transfer
Способность модели выполнять задачу, для которой она специально не обучалась.
Returns-to-go
Целевой показатель вознаграждения, который модель стремится получить в будущем.
📊 Цифры
🗓 Хронология
  1. Суббота (дата не указана) Машель Рид проводит первые успешные эксперименты по интеграции LM в RL.
  2. 2022 (публикация) Выход статьи «Can Wikipedia Help Offline Reinforcement Learning?».
⚖️ Другая сторона
Искусственный интеллект Decision Transformer Wikipedia Offline RL ChibiT GPT-2