Как классическая игра NetHack помогает обучать нейросети будущего

Обучение с подкреплением (Reinforcement Learning, RL) долгое время опиралось на игры вроде Atari, однако современные исследователи считают этот подход ограниченным. Тим Роктешель, научный сотрудник Meta AI (FAIR) и профессор UCL, обсуждает переход к процедурно генерируемым средам и использованию классической игры NetHack для тренировки агентов, способных к настоящему обобщению знаний.

🕹️ Проблема «переобучения» в симуляторах 2:00

На протяжении последнего десятилетия исследования в области RL были сосредоточены на крайне ограниченных и детерминированных средах . Тим Роктешель подчеркивает, что успех в играх Atari, безусловно, продвинул науку, но эти игры статичны. Агенты часто не «учатся» играть в широком смысле, а просто эксплуатируют упрощенные предположения, заложенные в симуляторы, фактически заучивая последовательности действий .

Проблема аналогична переобучению (overfitting) на датасете ImageNet в компьютерном зрении . В RL это проявляется еще острее: если агент привыкает к определенному визуальному паттерну или топологии уровня, малейшее изменение (например, текстуры пола или расположения стен) приводит к полному краху его стратегии . Чтобы преодолеть этот барьер, исследовательское сообщество начало внедрять процедурно генерируемые среды, такие как:

Minecraft: богатый, но чрезвычайно медленный для симуляции мир .
Obstacle Tower: 3D-среда для прыжков, где расположение блоков и ключей меняется каждый эпизод .
OpenAI Procgen: набор из 16 игр, требующих систематического обобщения навыков .

🗡️ NetHack как идеальный полигон для AI 12:00

Роктешель и его команда остановили свой выбор на NetHack — культовой игре жанра rogue-like, созданной в 1987 году . Несмотря на то, что игра полностью текстовая (ASCII-графика в терминале), она обладает невероятной глубиной.

Ключевые особенности NetHack как бенчмарка:

Скорость: отсутствие 3D-графики позволяет симулировать десятки тысяч шагов в секунду на одном GPU .
Сложность: сотни типов монстров и предметов, каждый из которых обладает уникальной механикой взаимодействия .
Перманентная смерть: после гибели персонажа игра начинается заново в абсолютно новом, процедурно созданном подземелье .
Длительность: прохождение игры занимает в среднем 50 000 шагов, что в разы больше, чем в StarCraft II .

Тим отмечает, что даже для опытного человека игра крайне сложна: самому Роктешелю потребовалось два года регулярной игры во время поездок на поезде, чтобы одержать свою первую победу («вознестись») .

🧠 От «берсерка» к осознанному исследователю 18:00

Первые попытки применить стандартные алгоритмы глубокого RL к NetHack дали любопытные результаты. Агенты научились базовым навыкам: открывать двери, избегать сильных монстров и даже есть пищу, чтобы не умереть от голода . Однако они все еще далеки от победы.

Основная проблема заключается в функции вознаграждения. Обычный игровой счет в NetHack — плохая метрика для оптимизации. Агент, стремящийся максимизировать счет, превращается в «берсерка»: он просто бежит вперед, убивая всё на своем пути, и быстро погибает, так как не тратит время на поиск экипировки и стратегическое развитие .

По мнению Роктешеля, агенты должны руководствоваться не внешними очками, а внутренней мотивацией (intrinsic motivation) и любопытством . Ученый проводит параллель со своей докторской диссертацией по NLP и графам знаний: агент в NetHack должен вести себя как ученый, ставящий эксперименты. Например, выяснять: «Что будет, если я смешаю эти два зелья?» или «Могу ли я прокопать туннель вниз с помощью этого жезла?» .

🛠️ MiniHack и обучение через дизайн сред 30:48

Для более тонкой настройки исследований команда Роктешеля создала проект MiniHack. Это «песочница» на базе движка NetHack, которая позволяет описывать конкретные задачи на специальном языке (DSL) . Исследователи могут создавать изощренные лабиринты или специфические ситуации для проверки конкретных навыков агента.

Одним из самых перспективных направлений Тим называет Unsupervised Environment Design (UED) . В этой концепции существуют два агента:

Студент: обучается решать задачи.
Учитель: генерирует уровни.

Учитель не просто создает случайные миры, а ищет такие конфигурации, где Студент допускает ошибки, но имеет потенциал для обучения . Этот процесс автоматического формирования учебного плана (curriculum learning) позволяет выращивать агентов, обладающих «Zero-shot generalization» — способностью успешно проходить созданные вручную сложные уровни, которые они никогда не видели в процессе обучения .

🚀 Будущее и открытые вопросы 44:22

В завершение беседы Роктешель выделил основные приоритеты будущих исследований:

Масштабирование сложности: переход от 2D-лабиринтов к полноценным 3D-мирам (например, в стиле Minecraft), где сложность нарастает эволюционно .
Обучение на демонстрациях: на серверах alt.org накоплено около 5 миллионов записей игр людей в NetHack . Проблема в том, что в них записаны состояния, но не действия (клавиши), что требует разработки новых методов обратного RL.
Символьное представление: использование того факта, что NetHack — символьная игра. Это открывает путь к нейросимвольным моделям, сочетающим глубокое обучение и классическую логику .

Тим подчеркивает: цель не в том, чтобы «взломать» конкретную игру, используя бесконечные вычислительные мощности, а в создании методов, которые позволят AI функционировать в непредсказуемом реальном мире .