World Models: Как Дэвид Ха и Юрген Шмидхубер научили ИИ обучаться в собственном воображении

Yannic Kilcher 21 тыс. 18 мин 4 мин 07.04.2018
Главное

В современном обучении с подкреплением (Reinforcement Learning) взаимодействие с реальной средой часто обходится слишком дорого: роботы тратят электричество и изнашиваются, а сложные симуляции требуют огромных вычислительных мощностей. Исследователь ИИ Янник Кильчер разбирает фундаментальную работу «World Models», авторами которой выступили Дэвид Ха из Google Brain и Юрген Шмидхубер, предложившие радикальное решение: позволить искусственному интеллекту обучаться внутри собственной «фантазии».

🧠 Концепция «моделей мира»: обучение в воображении 0:00

Основная идея работы Дэвида Ха и Юргена Шмидхубера заключается в том, что агенту не нужно постоянно взаимодействовать с реальной средой, чтобы учиться . Вместо этого он может построить внутреннюю модель того, как устроен мир, и тренироваться внутри этой модели. Янник Кильчер сравнивает это с человеческим воображением: мы можем проигрывать сценарии действий в голове, не совершая их в реальности .

Для демонстрации концепции авторы использовали две классические среды:

По мнению Янника Кильчера, такой подход позволяет минимизировать количество дорогостоящих запросов к среде, заменяя их работой с компактным математическим представлением мира .

🖼️ Компонент V (Vision): сжатие визуального опыта 2:07

Первым этапом создания «модели мира» является сбор данных. Авторы запускают в среду агента со случайной стратегией поведения и собирают 10 000 примеров взаимодействия (rollouts) . Эти данные используются для обучения первого компонента системы — вариационного автоэнкодера (VAE).

VAE выполняет роль «зрения» модели:

Янник Кильчер отмечает, что благодаря сильному сжатию модель вынуждена игнорировать статичные и нерелевантные детали, такие как цвет потолка, и фокусироваться на критически важных объектах — например, на положении огненных шаров относительно игрока . Таким образом, вектор $z$ становится абстрактным и эффективным описанием текущего состояния среды .

💾 Компонент M (Memory): предсказание будущего 5:53

Второй компонент системы — рекуррентная нейронная сеть (RNN), которая отвечает за «память» и понимание динамики времени. В отличие от других подходов, которые пытаются предсказать будущие пиксели изображения напрямую, модель Дэвида Ха и Юргена Шмидхубера предсказывает эволюцию латентных векторов $z$ .

Особенности работы RNN в World Models:

По утверждению Янника Кильчера, работа в латентном пространстве значительно упрощает обучение, так как это пространство гораздо меньше, чем полная размерность видеокадров . К концу этого этапа у системы уже есть полноценная «модель мира»: она знает, что произойдёт, если совершить то или иное действие .

🎮 Компонент C (Controller): минималистичное управление 9:10

Последний элемент — это контроллер, который непосредственно выбирает действия. Авторы намеренно сделали его максимально простым — это обычная линейная модель . На вход контроллер получает два вектора:

  1. Текущее латентное представление от VAE ($z$).
  2. Скрытое состояние «памяти» от RNN ($h$), которое содержит контекст прошлых событий .

Янник Кильчер подчеркивает, что простота контроллера — это осознанный выбор авторов, чтобы доказать: основную интеллектуальную работу выполняет именно модель среды. Если модель мира хороша, то для принятия правильных решений достаточно самых простых вычислительных инструментов .

🌙 Эксперимент «Сон»: обучение в виртуальной реальности 11:43

Самым впечатляющим результатом работы стал эксперимент по обучению агента исключительно внутри «воображения» RNN. Агент никогда не видел реальных кадров игры Doom во время обучения; он взаимодействовал только с галлюцинациями нейросети о том, как должны лететь огненные шары .

Основные этапы этого процесса:

Результаты показали, что агент, обученный «во сне», успешно справляется с реальной игрой и даже превосходит предыдущие алгоритмы в некоторых тестах OpenAI Gym .

⚠️ Проблема «читерства» и роль температуры 15:10

В процессе обучения в воображении возникла специфическая проблема, которую авторы назвали «эксплуатацией модели» или читерством . Если внутренняя модель среды содержит хотя бы малейшую ошибку (например, позволяет проходить сквозь стены или делает огненные шары невидимыми в определенных углах), агент неизбежно найдет этот баг и начнет его использовать для набора очков .

Чтобы предотвратить такое поведение, Дэвид Ха и Юрген Шмидхубер предложили использовать параметр температуры:

В завершение обзора Янник Кильчер отмечает, что статья написана очень живым и «прозаичным» языком, что редко встречается в академической среде . Хотя авторы обсуждали возможность итеративного обучения (когда модель мира и контроллер улучшаются по очереди), в данной работе они ограничились последовательным подходом, оставив более сложные схемы для будущих исследований .

💬 Цитаты

«Я могу просто выучить модель среды и затем обучаться, используя эту модель. По сути, я могу использовать свое воображение.»

Янник Кильчер 1:39

«Если ваша модель мира неверна, политика найдет способ эксплуатировать эту неверность. Вы сможете ходить сквозь стены или летать.»

Янник Кильчер 16:18
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VAE (Variational Autoencoder)
Тип нейросети, которая сжимает входные данные в компактный код и пытается восстановить их обратно.
Латентное представление (Z)
Сжатый вектор данных, содержащий только самую важную информацию об объекте или кадре.
RNN (Recurrent Neural Network)
Сеть, обладающая памятью и способная обрабатывать последовательности данных во времени.
Rollouts
Записанные сессии взаимодействия агента со средой от начала до конца.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект World Models VAE RNN Reinforcement Learning Дэвид Ха