Авторы ChibiT о переносе знаний из текстов Wikipedia в Offline RL

Может ли чтение Википедии сделать искусственный интеллект более эффективным в управлении роботами или прохождении игр? Янник Кильхер (Yannic Kilcher) обсуждает с авторами исследования «Can Wikipedia Help Offline Reinforcement Learning?» Машелем Ридом и Ютаро Ямадой парадоксальный, на первый взгляд, перенос знаний из лингвистики в робототехнику.

🧠 Суть концепции: лингвистический фундамент для RL 1:20

Основная идея работы заключается в проверке гипотезы: может ли предварительное обучение на текстах (Wikipedia) помочь в решении задач последовательного моделирования, в частности, в офлайн-обучении с подкреплением (Offline RL). Авторы отмечают, что использование языковых моделей дает существенный прирост производительности по сравнению с рандомной инициализацией весов.

Ключевые преимущества подхода:

Ускорение сходимости: Модели, прошедшие пре-трейнинг на текстах, обучаются значительно быстрее.
Перенос структурной информации: Несмотря на разную природу данных, в языке заложены паттерны и иерархии, которые оказываются полезными для построения стратегий поведения.
Универсальность: Исследование ставит вопрос о существовании новой парадигмы обучения (transfer learning), где для достижения успеха в целевой задаче не требуются строго родственные данные.

⚡ От «субботнего эксперимента» к научному прорыву 3:06

Машель Рид признается, что идея возникла из аналогий с мультиязычным обучением. В NLP уже доказано, что модель, обученную на английском (BERT), можно успешно адаптировать для испанского или даже ранее не виданных языков. Обсуждая с коллегами отсутствие у Reinforcement Learning своего «момента BERT или GPT», авторы решили попробовать радикальный подход.

Первая реакция команды была скептической. Один из соавторов, Шен, изначально считал, что это «ни за что не сработает». Однако результаты первых экспериментов, проведенных Машелем Ридом в субботу утром, оказались настолько впечатляющими, что проект получил полноценное развитие.

📊 Сравнение моделей: ChibiT vs GPT-2 7:27

В ходе исследования сравнивались несколько архитектур на базе трансформеров:

Decision Transformer (DT): Базовая модель, обучаемая с нуля на данных RL без пре-трейнинга.
ChibiT: Компактная модель, предварительно обученная на языке («Chibi» в переводе с японского означает «маленький»).
GPT-2: Полноразмерная языковая модель, которая в 100 раз больше ChibiT.

Результаты показали, что модели с языковым прошлым стабильно превосходят стандартный Decision Transformer. Однако возникла интересная аномалия: огромная GPT-2 далеко не всегда значительно обходила маленькую ChibiT. По мнению Машеля Рида, это может означать, что для RL важен не сам объем накопленных фактов, а базовая структура и логика иерархий, которую обе модели усваивают примерно одинаково.

🖼️ Почему изображения не заменяют текст 15:34

Исследователи также протестировали Image GPT (iGPT), но результаты оказались провальными. Ютаро Ямада объясняет это фундаментальной разницей в структуре данных:

Дискретность против пикселей: В языке и RL есть четкие дискретные единицы (слова, состояния, действия). В статических изображениях пиксели сложно сгруппировать в объекты без априорных знаний.
Временное измерение: Текст и траектории RL по своей природе последовательны. Изображения — статичны.
Перспектива видео: Авторы полагают, что пре-трейнинг на видео может сработать лучше, чем на картинках, так как движение позволяет нейросети легче выделять объекты и причинно-следственные связи.

👁️ Визуализация внимания: «Паттерн трех» 24:38

Одной из самых ярких частей интервью стал анализ карт внимания (attention maps) в моделях. В Decision Transformer входные данные подаются кортежами из трех элементов: (возврат, состояние, действие).

Наблюдения участников дискуссии:

Регрессия к недавнему: Случайно инициализированные модели демонстрируют жесткое внимание только к последним трем шагам.
Диффузное внимание LMs: Языковые модели (GPT-2) сохраняют способность «смотреть» глубже в историю эпизода, выделяя действительно важные состояния, а не просто ближайшие по времени токены.
Жесткость паттернов: В базовых моделях внимание настолько сфокусировано на текущем шаге, что это может мешать обучению сложным долгосрочным связям.

🏎️ Скорость обучения и ресурсы 33:37

Вопреки стереотипам о прожорливости RL, данный метод оказался весьма доступным. Обучение проводилось на одной видеокарте NVIDIA V100 и занимало всего несколько часов.

Ускорение сходимости — это не результат оптимизации кода, а именно заслуга весов, полученных из Википедии. При этом авторы отмечают важный нюанс: во время инференса (работы модели) GPT-2 ожидаемо медленнее из-за своего размера.

🔮 Будущее: код, музыка и ко-трейнинг 42:02

В планах исследователей — попробовать другие модальности для пре-трейнинга: программный код, музыку и речь. Особый интерес представляет «совместное обучение» (co-training). В экспериментах выяснилось, что при обучении на траекториях RL способность модели понимать язык практически не деградирует. Это открывает путь к созданию универсальных агентов, способных одновременно читать инструкции и выполнять действия в сложной среде.