Венлонг Хуанг представил метод zero-shot планирования для ИИ-агентов

В новом видео на YouTube-канале Yannic Kilcher ведущий Янник Кильхер (Yannic Kilcher) разбирает передовое исследование на стыке языковых моделей и робототехники, а также беседует с его первым автором. В центре внимания — научная работа, исследующая способность больших языковых моделей (LLM) выступать в роли планировщиков для виртуальных и физических агентов без какого-либо предварительного обучения (zero-shot). Гостем выпуска стал исследователь Венлонг Хуанг (Wenlong Huang), который подробно рассказал о создании алгоритма, позволяющего переводить абстрактные знания нейросетей в конкретные и выполнимые инструкции для роботов.

🏠 Среда Virtual Home и парадокс масштабирования LLM 0:00

Экспериментальной базой для исследования стала симуляционная среда Virtual Home, моделирующая выполнение повседневных бытовых задач внутри дома. Перед ИИ-агентом ставятся комплексные цели, такие как «почистить зубы» или «приготовить завтрак». Чтобы выполнить задачу, модель должна сформировать последовательность элементарных действий, соответствующих жестким правилам и прецедентам симулятора.

Как уточнил в ходе интервью Венлонг Хуанг, среда Virtual Home существует в двух ипостасях:

Текстовая версия на Python, работающая как конечный автомат (state machine), поддерживающий порядка 42 базовых действий.
Трехмерная визуализированная версия на движке Unity, где на текущий момент доступно лишь около 10 действий.

В рамках своей научной работы авторы использовали именно Python-версию симулятора из-за ее более богатого семантического пространства. Архитектура среды полностью построена на основе данных, собранных у людей через краудсорсинг. Разработчики Virtual Home сначала просили одну группу людей составить список бытовых задач, а затем другая группа детально расписывала пошаговые инструкции для управления роботом. На основе этих глаголов и объектов была создана база из примерно 50 000 возможных комбинаций действий.

Важнейшей особенностью Virtual Home является строгий учет скрытых условий (preconditions) и пост-условий среды. Например, агент не может просто «взять молоко из холодильника» — симулятор требует сначала подойти к холодильнику, открыть его дверцу, взять пакет и затем закрыть холодильник. Внутри системы непрерывно отслеживаются триггеры состояний каждого объекта (открыт/закрыт, включен/выключен).

В ходе базовых тестов Янник Кильхер и Венлонг Хуанг столкнулись с удивительным парадоксом масштабирования. При оценке планов по двум метрикам — семантической корректности (оцениваемой людьми) и технической исполнимости (проверяемой кодом симулятора) — выяснилось, что с ростом размера нейросети её исполнимость падает.

По мнению Янника Кильхера, сверхбольшие модели вроде ванильной GPT-3 становятся слишком «умными» и выразительными: они предлагают оригинальные творческие пути решения задач, которые попросту не могут быть распознаны жестким синтаксическим парсером среды. В то же время маленькие модели (например, GPT-2) демонстрировали высокую формальную исполнимость, но их планы были лишены смысла. По словам Венлонга Хуанга, миниатюрные модели часто банально зацикливались, повторяя пример из промпта, либо выдавали ультракороткие команды вида «иди в спальню», где технически невозможно совершить ошибку в условиях среды.

🔄 Три шага к идеальному плану: методология исследователей 9:04

Чтобы решить проблему плохой исполнимости планов у больших моделей, команда Венлонга Хуанга разработала трехэтапную процедуру трансляции и генерации, не требующую дообучения (fine-tuning) целевой LLM. В основе метода лежит идея моста между свободным человеческим языком и строгой грамматикой робота.

1. Семантический перевод действий (Action Translation)

Вместо того чтобы заставлять генеративную модель напрямую писать код симулятора (что, по опыту авторов, работает крайне плохо), ей позволяют генерировать шаги на естественном языке. Затем в игру вступает вторая модель — Sentence-RoBERTa (модификация BERT), предобученная на задаче маскированного языкового моделирования.

Процесс трансляции выглядит следующим образом:

Авторы заранее компилируют и вычисляют эмбеддинги (векторные представления) для всех допустимых в среде Virtual Home комбинаций действий.
Фраза, сгенерированная большой языковой моделью (например, «выдави немного лосьона»), кодируется через Sentence-RoBERTa.
В векторном пространстве через косинусное расстояние находится ближайший легитимный аналог из базы данных симулятора (например, «налей лосьон в правую руку»).
Текст модели заменяется найденным ближайшим соседом.

2. Пошаговая авторегрессионная генерация (Interleaved Generation)

Первоначальный базовый подход страдал от того, что LLM выдавала весь список шагов целиком, после чего каждый пункт изолированно переводился. Это приводило к потере логических связей: если модель использовала составное действие («открой холодильник и возьми молоко»), транслятор заменял его лишь на один технический шаг, руша всю последующую цепочку.

Исследователи применили интерливинг (переплетение): модель генерирует ровно один шаг. Он тут же переводится на язык симулятора, и этот уже переведенный, валидный шаг подается обратно в контекст (промпт) LLM для генерации второго шага. Таким образом, языковая модель постоянно опирается на реальное, жестко зафиксированное состояние плана, получая своеобразные «рельсы».

3. Динамический подбор промпта (Dynamic Priming)

Вместо статичного примера в начале сессии авторы внедрили систему умного поиска контекста. С помощью той же модели Sentence-RoBERTa формулировка текущей задачи сопоставляется с человеческим датасетом Virtual Home. Система находит наиболее семантически близкую задачу (например, для цели «побриться» промптом-ориентиром станет «нанести лосьон») и подставляет ее успешный человеческий план в качестве единственного примера для in-context learning.

Венлонг Хуанг объяснил, почему они используют всего один пример в промпте, в то время как в индустрии принято давать три и более. Человеческие планы в Virtual Home невероятно длинные и подробные. Если поместить в промпт несколько таких цепочек, они мгновенно исчерпают контекстное окно модели.

💻 Эффективность OpenAI Codex и юмор краудсорсинга 15:39

Одним из самых сильных сюрпризов исследования продуктивности моделей стала демонстрация результатов специализированной модели OpenAI Codex. Несмотря на то, что Codex значительно уступал топовой версии GPT-3 по общему числу параметров, в паре с предложенным алгоритмом трансляции он показал выдающуюся эффективность, превзойдя базовую модель по метрикам executability и correctness.

Венлонг Хуанг поделился своей гипотезой относительно феномена Codex. По его мнению, модель воспринимает текстовый промпт с описанием шагов как техническую строку документации — докстринг (docstring) в коде Python. Поскольку Codex обучался на колоссальном массиве программного кода, где за докстрингами всегда следуют строгие, последовательные алгоритмические блоки, нейросеть приучилась к жесткой логике. В отличие от классических разговорных LLM, склонных писать связные «литературные романы», Codex генерирует сухие, структурные и последовательные списки, идеально подходящие для планирования работы роботов.

В процессе анализа человеческого датасета исследователи также наткнулись на забавную «пасхалку». В списке задач Virtual Home присутствовал пункт «выполнить опросы на Amazon Mechanical Turk». Сгенерированный человеком план для этой задачи выглядел иронично и меланхолично:

Подойти к домашнему офису.
Сесть на стул.
Включить компьютер.
Смотреть в компьютер.

Поскольку разметчиками датасета выступали как раз исполнители с платформы Mechanical Turk, кто-то из них решил увековечить свой собственный повседневный быт в качестве задания для ИИ. Модель успешно справилась с симуляцией этой задачи, поскольку смогла выявить ассоциативные связи между запрашиваемым сервисом и компьютерной техникой.

⚠️ Обратная связь от среды и перспективы мультимодальности 1:05:05

В завершение беседы эксперты подробно обсудили ключевые барьеры, которые пока не позволяют перенести разработанную технологию на реальных физических роботов. Главный недостаток текущей архитектуры — работа в режиме «разомкнутого контура» (open-loop planning). Нейросеть строит план априори, она совершенно не видит и не учитывает динамическое изменение состояния среды в реальном времени. По выражению Венлонга Хуанга, если робот задумает сварить кофе, но в комнате физически будет отсутствовать кофемашина, текущая модель не сможет перестроить свое поведение и адаптироваться к ограничениям, поскольку у нее нет входящего потока данных о состоянии комнаты.

Янник Кильхер предложил потенциальное решение этой проблемы через интеграцию мультимодальных визуальных моделей, таких как CLIP от OpenAI. Ссылаясь на идеи исследователя Джона Батисты (John Battista), Кильхер отметил, что CLIP можно использовать для кодирования текущих кадров из видеопотока робота в то же самое латентное пространство эмбеддингов. Визуальные снимки комнат могли бы выступать в качестве фактических индикаторов «состояний». Венлонг Хуанг согласился, что подключение зрительной модальности — это критически важный следующий шаг для всего научного сообщества.

В качестве еще одной важной метрики авторы использовали LCS (Longest Common Subsequence — самая длинная общая подпоследовательность) для сравнения планов ИИ с эталонными человеческими траекториями. Результаты показали, что классическое сквозное дообучение (fine-tuning baseline) все еще демонстрирует очень высокие показатели совпадения по LCS, поскольку жестко подстраивается под специфику конкретного домена данных. Однако метод zero-shot планирования незаменим в условиях, когда у разработчиков нет возможности собирать огромные профильные датасеты под каждую новую среду.

На данный момент Венлонг Хуанг находится на этапе подачи заявок на докторские программы (PhD) и планирует продолжать изыскания в области наделения ИИ-агентов здравым смыслом (common sense reasoning). Он отдельно подчеркнул, что данная работа является плодом больших командных усилий, и выразил глубокую благодарность своим академическим наставникам и соавторам — Питеру Аббилю (Pieter Abbeel), Дипаку Патхаку (Deepak Pathak) и Игорю Мордачу (Igor Mordatch).