Как естественный язык помогает ИИ исследовать сложные виртуальные миры?

В современном обучении с подкреплением агенты часто заходят в тупик при исследовании сложных сред с разреженными наградами. В интервью популярному ИТ-блогеру Яннику Килхеру (Yannic Kilcher) исследователь Джесси Му (Jesse Moo) подробно описывает концепцию своей научной работы «Improving Intrinsic Exploration with Language Abstractions». В центре обсуждения находится идея о том, что замена традиционных геометрических координат на абстракции естественного языка позволяет алгоритмам ИИ эффективнее ориентироваться в пространстве и использовать накопленный человечеством опыт.

🧭 Проблема исследования и языковой «лифт» 1:19

В обучении с подкреплением центральной проблемой на протяжении долгого времени остается вопрос: как мотивировать агента исследовать среду, если внешняя награда (extrinsic reward) выдается крайне редко? Традиционный подход, по словам Джесси Му (Jesse Moo), опирается на интуитивное стремление к новизне (novelty) — агенту начисляются бонусы за посещение состояний, в которых он еще не бывал. Однако ключевая сложность заключается в самом определении новизны. Среды могут визуально сильно отличаться, сохраняя при этом одинаковую семантику. Джесси Му приводит пример с кухней: бытовая техника в разных домах может принадлежать разным брендам и иметь разный цвет, но функционально любая кухня остается кухней, и принципы работы в ней неизменны.

Основная идея рецензируемой работы заключается в том, чтобы использовать естественный язык в качестве универсальной метрики для описания состояний и действий агента. Вместо создания принципиально новых алгоритмов авторы предлагают перепараметризовать существующие бенчмарки исследования, внедрив в них языковые абстракции вместо стандартных геометрических или сырых представлений состояний.

📊 Смена парадигмы или просто дополнительные данные? 4:33

Янник Килхер (Yannic Kilcher) высказал критическое замечание: не является ли предложенный метод простым добавлением новых данных из симулятора, которые другие алгоритмы обычно игнорируют? Джесси Му частично согласился с этой оценкой, уточнив, что термин «замена» (swap) полностью справедлив лишь для половины их работы. В случае с алгоритмом AMIGO произошла полноценная замена: если в оригинальной архитектуре сеть-«учитель» предлагала координаты целей в виде осей X и Y, то в модифицированной версии этот механизм спецификации целей был полностью упразднен в пользу языка. В то же время, при интеграции с методом Novelty языковой компонент действительно сработал скорее как надстройка (bolt-on), поскольку исследователи сохранили классический бонус за новизну состояний.

По мнению Джесси Му, ценность работы заключается в математическом описании и операционализации того, как именно эти текстовые данные можно эффективно использовать для повышения производительности. Он подчеркнул, что текстовый сигнал от игрового движка является довольно зашумленным. Большинство генерируемых сообщений (например, сообщения о столкновении со стеной или броске камня в минотавра) абсолютно бесполезны для выполнения основной задачи. Тем не менее, эксперименты эмпирически доказали, что даже зашумленный языковой сигнал позволяет добиться превосходства над классическими методами абстракции состояний.

🛠️ Анатомия EL AMIGO: зачем разделять заземление и политику 9:15

В оригинальном алгоритме AMIGO сеть-учитель генерирует координату, которую агент-ученик должен достичь. При этом учитель должен самостоятельно балансировать, подбирая цели, которые будут не слишком легкими и не слишком сложными, избегая недостижимых точек внутри стен. В языковой версии (EL AMIGO) авторы разделили эту задачу на две независимые нейросети:

Сеть заземления (grounding network), которая определяет саму принципиальную достижимость текстовых целей.
Сеть политики (policy network), которая ранжирует цели по уровню сложности для ученика.

Абляционные исследования в приложении к работе показали, что единая сеть неплохо справляется в среде MiniHack, но демонстрирует слабые результаты в MiniGrid. По словам Джесси Му, это связано с тем, что координатная сетка неизменна от эпизода к эпизоду, в то время как текстовые цели обладают высокой вариативностью. Например, команда «подойди к красной двери» имеет смысл лишь в половине случайно сгенерированных комнат. Если учитель предлагает невыполнимую цель, он получает отрицательное подкрепление только после того, как ученик безуспешно пытается выполнить ее в течение нескольких сотен шагов. Это крайне неэффективно с точки зрения расхода сэмплов (sample inefficient). Кроме того, алгоритму сложно различить две причины неудачи: была ли цель физически невозможной в данной итерации среды или она просто пока слишком сложна для текущих навыков ученика.

🔄 Ловушки траекторий и обучение заземлению 13:16

Для обучения сети заземления исследователи применили специфический подход: первое текстовое описание, с которым ученик сталкивается во время случайного исследования среды на траектории, помечается как положительный пример (positive sample), а все остальные доступные в пространстве цели — как отрицательные (negative samples). Янник Килхер заметил, что при таком подходе в разряд отрицательных сэмплов ошибочно попадают цели, которые агент на самом деле посетил, но просто чуть позже по времени.

Джесси Му признал эту логику аномальной, но отметил, что на длинной дистанции обучения этот шум нивелируется за счет статистического усреднения. Сеть заземления в данном контексте оценивает не абсолютную физическую достижимость цели в мире, а то, какие цели ученик способен стабильно достигать при текущем состоянии его политики обучения.

Однако этот метод может давать сбои в средах со строгой причинно-следственной структурой. Янник Килхер привел пример: если агенту всегда нужно сначала пройти через зеленую дверь, чтобы добраться до красной, то в любой траектории цель «зеленая дверь» всегда будет первой. Из-за этого сеть заземления может никогда не распознать «красную дверь» как валидную цель. Джесси Му согласился с существованием такой проблемы, добавив, что в подобных цепочках может потребоваться отключение сети заземления или дополнительная корректировка динамики обучения через сеть политики.

📈 Масштабирование сред и победа над геометрическим шумом 18:14

Одной из главных трудностей при оценке алгоритмов глубокого обучения с подкреплением является колоссальный шум и высокая дисперсия индивидуальных запусков. Чтобы обеспечить научную строгость, авторы исследования опирались на методологию известной работы института Mila «Deep Reinforcement Learning on the Edge of the Statistical Precipice», получившей награду на конференции NeurIPS.

В ходе тестирования исследователи применили следующие статистические принципы:

Проведение ровно 5 независимых запусков для каждого экспериментального условия.
Построение 95-процентных бутстрап-доверительных интервалов (bootstrap confidence intervals).
Расчет межквартильного среднего (interquartile mean) для агрегированных показателей по всем задачам, что позволило исключить влияние случайных выбросов.

Эмпирические результаты выявили четкую закономерность: языковое исследование показывает значительно более высокие результаты именно в крупных, пространственно масштабированных средах. По мнению Джесси Му, классические координатные методы вроде AMIGO или Novelty страдают от геометрического шума при увеличении площади комнат. В большом лабиринте может существовать множество разных координат, которые семантически означают одно и то же действие (например, нахождение в одной и той же комнате). В результате пространство геометрических целей раздувается, тогда как пространство языковых целей остается компактным и стабильным.

Ярким примером стала задача «Wand of Death» (Wod). На среднем уровне сложности (medium) классический AMIGO даже опережал языковую версию по скорости обучения. Однако на тяжелом уровне (hard), где единственным отличием был увеличенный размер стартовой комнаты, геометрический AMIGO полностью потерял способность к обучению, в то время как EL AMIGO успешно справился с задачей. Это доказывает, что координатные методы крайне уязвимы к простому физическому масштабированию пространства.

🧠 Философия человеческих априори и реальный мир 23:04

Обсуждая феномен компактности языка, Янник Килхер задался философским вопросом: является ли стабильность языковых описаний свойством нашего реального мира или же это просто следствие лени разработчиков видеоигр, которые повторно используют текстуры, объекты и персонажей в процедурно генерируемых мирах вроде Minecraft или GTA?

Джесси Му выразил мнение, что язык выступает мощным априорным фильтром (strong prior) того, что действительно важно для человека. В реальном мире люди придумывают короткие слова только для тех явлений и объектов, которые имеют значение. При этом человеческий язык полностью игнорирует микро-уровни физического взаимодействия. По словам гостя, у нас нет слов, чтобы описать смещение отдельного сустава пальца руки на 0,03 градуса, хотя для робототехники это базовое действие. Напротив, язык оперирует абстракциями высокого уровня.

В качестве перспективного вектора развития Джесси Му назвал фильтрацию языковых сигналов на основе глобальной внешней цели агента. Если глобальная задача — победить минотавра, ИИ должен автоматически приоритизировать сообщения, связанные с боем. Однако здесь возникает риск репликации проблемы исследования на новом абстрактном уровне. Например, чтобы купить оружие для боя, агенту сначала нужны деньги. Если алгоритм отфильтрует слово «деньги» как не связанное с боем, он зайдет в тупик.

🔮 Забывчивость учителей и интеграция больших языковых моделей 32:10

В процессе онлайн-обучения агенты часто сталкиваются с проблемой катастрофического забывания (catastrophic forgetting). В рамках данного исследования авторы не измеряли этот эффект напрямую. Джесси Му пояснил, что для финального успеха агенту не требуется непрерывно удерживать в памяти все низкоуровневые навыки, заложенные в учебную программу. Поскольку глобальная цель в среде всего одна, не имеет значения, забыл ли агент, как открывать конкретную зеленую дверь на первых этапах, если в конечном итоге его текущая политика позволяет успешно дойти до финала.

Отвечая на вопрос о будущем отказе от жестко запрограммированного текстового «оракула» движка игры, Джесси Му выделил три направления интеграции предобученных внешних моделей:

Непривязанные языковые модели (например, GPT-3): Даже без визуального контекста такие модели обладают колоссальными знаниями о здравом смысле (common sense knowledge). GPT-3 «знает», что для победы над монстром нужен меч, который можно купить в магазине, поэтому модель может генерировать и валидировать логичные цепочки подцелей. Проекты команд из Беркли и Google уже успешно используют LLM для планирования бытовых задач (например, команда «сделай кофе» декомпозируется моделью на «найти кружку» и «вскипятить чайник») без прямой привязки к картинке.
Мультимодальные модели (CLIP): Способны сопоставлять визуальные кадры из игры с текстовыми описаниями, обеспечивая гибкое заземление без помощи со стороны разработчиков.
Генеративные модели (DALL-E): Могут гипотетически использоваться для визуализации целевых состояний.

💻 За кулисами исследования: инфраструктура и эволюция идеи 40:20

Научная работа проводилась Джесси Му во время его осенней стажировки 2021 года в лаборатории FAIR (Meta AI) в Лондоне в сотрудничестве со стэнфордскими коллегами. Несмотря на то, что MiniHack и NetHack написаны на языке C и прекрасно оптимизированы, глубокое обучение с подкреплением все равно требует огромных аппаратных мощностей.

Для проведения всего одного вычислительного эксперимента исследователям требовалось задействовать:

40 процессоров (CPU) для одновременного параллельного сбора опыта акторами.
1–2 графических ускорителя (GPU) в фоновом режиме для непрерывного обновления политики на основе этого опыта.

Интересна эволюция самого проекта. Изначально авторы преследовали стандартную для индустрии амбицию — создать революционный алгоритм EL AMIGO, который покажет 100-процентную эффективность и «разгромит» все существующие подходы. Однако прямо во время их работы на конференции NeurIPS другая группа ученых представила метод Novelty, который продемонстрировал выдающиеся результаты.

По воспоминаниям Джесси Му, это едва не разрушило всю концепцию их статьи, так как они теряли статус «лучшего в мире» решения. Тем не менее, команда вовремя перестроилась и сместила фокус с чисто инженерной гонки на фундаментальный научный вопрос: «Помогает ли язык исследованию сред в принципе?». Они добавили языковой модуль и в алгоритм конкурентов (Novelty), доказав, что формула «Метод X + Язык» стабильно дает прирост эффективности независимо от базовой архитектуры.

Начинающим исследователям Джесси Му советует двигаться по пути постепенного ослабления жестких допущений (progressive relaxation of assumptions). Вместо попыток сразу построить сложного домашнего робота, лучше взять готовую фиксированную среду и попробовать заменить идеального текстового оракула на нейросеть-капшенера, обучаемую генерировать описания на лету.