В современном обучении с подкреплением (Reinforcement Learning) взаимодействие с реальной средой часто обходится слишком дорого: роботы тратят электричество и изнашиваются, а сложные симуляции требуют огромных вычислительных мощностей. Исследователь ИИ Янник Кильчер разбирает фундаментальную работу «World Models», авторами которой выступили Дэвид Ха из Google Brain и Юрген Шмидхубер, предложившие радикальное решение: позволить искусственному интеллекту обучаться внутри собственной «фантазии».
🧠 Концепция «моделей мира»: обучение в воображении 0:00
Основная идея работы Дэвида Ха и Юргена Шмидхубера заключается в том, что агенту не нужно постоянно взаимодействовать с реальной средой, чтобы учиться . Вместо этого он может построить внутреннюю модель того, как устроен мир, и тренироваться внутри этой модели. Янник Кильчер сравнивает это с человеческим воображением: мы можем проигрывать сценарии действий в голове, не совершая их в реальности .
Для демонстрации концепции авторы использовали две классические среды:
- Car Racing: симулятор гоночного автомобиля, где нужно удерживать машину на трассе .
- VizDoom: эксперимент в стиле игры Doom, где задача агента — уклоняться от огненных шаров, выпускаемых монстрами .
По мнению Янника Кильчера, такой подход позволяет минимизировать количество дорогостоящих запросов к среде, заменяя их работой с компактным математическим представлением мира .
🖼️ Компонент V (Vision): сжатие визуального опыта 2:07
Первым этапом создания «модели мира» является сбор данных. Авторы запускают в среду агента со случайной стратегией поведения и собирают 10 000 примеров взаимодействия (rollouts) . Эти данные используются для обучения первого компонента системы — вариационного автоэнкодера (VAE).
VAE выполняет роль «зрения» модели:
- Он принимает на вход кадр видео (например, 64x64 пикселя) .
- Пропускает его через кодировщик, сжимая в «латентное представление» (вектор $z$) размерностью от 10 до 100 .
- Декодировщик пытается восстановить исходное изображение из этого сжатого кода .
Янник Кильчер отмечает, что благодаря сильному сжатию модель вынуждена игнорировать статичные и нерелевантные детали, такие как цвет потолка, и фокусироваться на критически важных объектах — например, на положении огненных шаров относительно игрока . Таким образом, вектор $z$ становится абстрактным и эффективным описанием текущего состояния среды .
💾 Компонент M (Memory): предсказание будущего 5:53
Второй компонент системы — рекуррентная нейронная сеть (RNN), которая отвечает за «память» и понимание динамики времени. В отличие от других подходов, которые пытаются предсказать будущие пиксели изображения напрямую, модель Дэвида Ха и Юргена Шмидхубера предсказывает эволюцию латентных векторов $z$ .
Особенности работы RNN в World Models:
- Сеть обучается предсказывать следующее состояние $z$ на основе текущего состояния и предпринятого действия .
- Используется механизм Mixture Density Network (MDN), который выдаёт не одно значение, а распределение вероятностей будущих состояний .
- Введён параметр «температуры», который контролирует уровень стохастичности (случайности) предсказаний .
По утверждению Янника Кильчера, работа в латентном пространстве значительно упрощает обучение, так как это пространство гораздо меньше, чем полная размерность видеокадров . К концу этого этапа у системы уже есть полноценная «модель мира»: она знает, что произойдёт, если совершить то или иное действие .
🎮 Компонент C (Controller): минималистичное управление 9:10
Последний элемент — это контроллер, который непосредственно выбирает действия. Авторы намеренно сделали его максимально простым — это обычная линейная модель . На вход контроллер получает два вектора:
- Текущее латентное представление от VAE ($z$).
- Скрытое состояние «памяти» от RNN ($h$), которое содержит контекст прошлых событий .
Янник Кильчер подчеркивает, что простота контроллера — это осознанный выбор авторов, чтобы доказать: основную интеллектуальную работу выполняет именно модель среды. Если модель мира хороша, то для принятия правильных решений достаточно самых простых вычислительных инструментов .
🌙 Эксперимент «Сон»: обучение в виртуальной реальности 11:43
Самым впечатляющим результатом работы стал эксперимент по обучению агента исключительно внутри «воображения» RNN. Агент никогда не видел реальных кадров игры Doom во время обучения; он взаимодействовал только с галлюцинациями нейросети о том, как должны лететь огненные шары .
Основные этапы этого процесса:
- Обучение VAE и RNN на случайных данных из реальной среды .
- Создание «виртуальной среды», где RNN генерирует следующие состояния вместо игрового движка .
- Обучение контроллера внутри этой галлюцинации .
- Перенос (transfer) обученной политики в реальную игру .
Результаты показали, что агент, обученный «во сне», успешно справляется с реальной игрой и даже превосходит предыдущие алгоритмы в некоторых тестах OpenAI Gym .
⚠️ Проблема «читерства» и роль температуры 15:10
В процессе обучения в воображении возникла специфическая проблема, которую авторы назвали «эксплуатацией модели» или читерством . Если внутренняя модель среды содержит хотя бы малейшую ошибку (например, позволяет проходить сквозь стены или делает огненные шары невидимыми в определенных углах), агент неизбежно найдет этот баг и начнет его использовать для набора очков .
Чтобы предотвратить такое поведение, Дэвид Ха и Юрген Шмидхубер предложили использовать параметр температуры:
- Повышение температуры делает предсказания модели более зашумленными и вариативными .
- Вместо одного «идеального» будущего агент видит множество слегка отличающихся вариантов развития событий .
- Это заставляет политику быть устойчивой к неопределенности: если в одном сценарии «баг» сработал, то в десяти других он приведет к поражению, что наказывает агента за попытки жульничать .
В завершение обзора Янник Кильчер отмечает, что статья написана очень живым и «прозаичным» языком, что редко встречается в академической среде . Хотя авторы обсуждали возможность итеративного обучения (когда модель мира и контроллер улучшаются по очереди), в данной работе они ограничились последовательным подходом, оставив более сложные схемы для будущих исследований .