Вэнь Лун Хуан: «GPT-3 обладает здравым смыслом для управления роботами»

В новом интервью Янник Кильхер обсуждает с исследователем Вэнь Лун Хуаном (Wen Long Huang) прорывную работу «Language Models as Zero-Shot Planners». В центре внимания — вопрос о том, как извлечь из огромных языковых моделей (LLM) вроде GPT-3 применимые на практике знания для управления роботами в реальном мире, не прибегая к их дополнительному обучению.

🤖 Роботы со «здравым смыслом»: LLM как планировщики 0:00

Традиционно для обучения «воплощенных агентов» (embodied agents) — роботов, действующих в физической или симулируемой среде, — требовались огромные наборы данных и специфическое обучение. Однако Вэнь Лун Хуан и его коллеги задались вопросом: можно ли использовать колоссальный объем знаний о мире, уже заложенный в LLM, для планирования сложных задач?

Как отмечает Янник Кильхер, ключевая идея исследования заключается в использовании моделей уровня GPT-3 или Codex от OpenAI для генерации последовательности шагов. В качестве экспериментальной площадки была выбрана среда Virtual Home, где агент должен выполнять бытовые задачи, такие как чистка зубов или приготовление завтрака.

Основные метрики эффективности моделей:

Исполнимость (Executability): способность модели генерировать команды, которые симулятор может распознать и выполнить согласно своей грамматике.
Корректность (Correctness): семантическая точность плана с точки зрения человека (насколько логичен предложенный алгоритм действий).

🏠 Парадокс Virtual Home: почему большие модели ошибаются 2:37

Среда Virtual Home представляет собой симуляцию дома, где действия ограничены строгим набором из примерно 50 000 возможных комбинаций глаголов и объектов. Чтобы робот мог, например, налить молока, он должен сначала подойти к холодильнику, открыть его и только потом взять пакет.

В ходе исследования был обнаружен любопытный парадокс:

Чем больше параметров у языковой модели, тем выше человеческая оценка её «корректности».
При этом с ростом размера модели её «исполнимость» (соответствие синтаксису среды) падает.

Янник Кильхер объясняет это тем, что мощные модели более экспрессивны: они предлагают креативные и логичные для человека пути решения, но часто выходят за рамки жестко заданного языка команд робота. Вэнь Лун Хуан добавляет, что маленькие модели часто просто копируют примеры из промпта или выдают слишком короткие, тривиальные планы, которые легко исполнить, но которые не решают задачу.

🛠 Три метода «приземления» знаний LLM 9:04

Чтобы заставить абстрактные знания GPT-3 работать в строгих условиях симуляции, авторы разработали процедуру трансляции, состоящую из трех ключевых улучшений.

1. Модель трансляции действий (Action Translation) 9:29

Поскольку LLM выдает свободный текст, его нужно сопоставить с допустимыми командами среды (например, «выдави немного лосьона» превратить в «налить лосьон в правую руку»). Для этого используется предварительно обученная модель Sentence-BERT (на базе RoBERTa). Все допустимые действия среды кодируются в векторном пространстве, и выход LLM заменяется на «ближайшего соседа» из этого списка.

2. Авторегрессивная генерация (Interleaving) 12:46

Вместо того чтобы генерировать весь план целиком, модель создает один шаг. Этот шаг транслируется в понятную роботу команду, и уже эта «исправленная» команда подается обратно в LLM как контекст для генерации следующего шага. Это создает своего рода «защитные рельсы», не давая модели уйти в свободные фантазии.

3. Динамический подбор промптов 13:27

Вместо одного статичного примера исследователи используют Sentence-BERT, чтобы найти в базе данных задачу, наиболее похожую на текущую, и подставить её в качестве контекста (Few-shot prompting).

💻 Феномен Codex: программирование как основа планирования 58:58

Одним из самых неожиданных результатов стало то, что модель Codex (специализированная на коде) показала результаты лучше, чем более крупные универсальные модели GPT-3.

Вэнь Лун Хуан выдвигает гипотезу, почему это происходит:

Структурированные данные: Codex обучался на коде и документации (docstrings), где инструкции обычно подаются в строгой логической последовательности.
Отсутствие лишнего пафоса: в коде и комментариях люди не пишут романы, а излагают шаги «алгоритмично», что идеально подходит для планирования действий робота.

По мнению гостя, это доказывает, что логическое мышление и понимание последовательностей лучше развиты у моделей, видевших много структурированного кода.

[Image comparing model size, correctness, and executability metrics]

🚀 Ограничения и будущее: взгляд Вэнь Лун Хуана 1:14:18

Несмотря на успех, Вэнь Лун Хуан подчеркивает, что текущий подход имеет критическое ограничение: модель планирует «вслепую». Она не знает текущего состояния среды. Если в задаче «приготовить кофе» у робота сломана кофемашина, LLM все равно предложит использовать её, так как опирается на общие знания, а не на сенсорные данные.

В будущем исследователь планирует:

Интегрировать обратную связь от среды: чтобы агент мог корректировать план в зависимости от того, что он «видит».
Использовать мультимодальность: например, модель CLIP для связи визуальных образов с текстовыми командами.

По словам Хуана, сейчас нельзя просто поставить этот софт на реального робота и доверять ему, но исследование открывает путь к созданию агентов, обладающих человеческим «здравым смыслом» без необходимости обучаться каждой мелочи с нуля.