Друв Батра: «Карты пространства возникают в ИИ сами собой, даже если агент слеп»

В новом выпуске подкаста TWIML AI Сэм Черрингтон беседует с Друвом Батрой, доцентом Технологического института Джорджии и директором по исследованиям в команде фундаментального ИИ (FAIR) в Meta. Разговор сосредоточен вокруг их недавнего исследования, получившего награду на конференции ICLR, которое изучает поразительный феномен: как нейросети, лишенные зрения и явных алгоритмов картографирования, учатся создавать внутренние карты пространства для навигации.

🤖 Эксперимент с «слепыми» агентами и возникновение карт 14:41

В 2019 году команда Друва Батры разработала 3D-симулятор Habitat, предназначенный для обучения агентов навигации в виртуальных копиях реальных помещений (домов, офисов). В ходе работы исследователи задались фундаментальным вопросом: строят ли ИИ-агенты внутренние пространственные карты в процессе обучения навигации, если им не давать таких инструкций напрямую? .

Чтобы проверить это, был поставлен эксперимент с «слепыми» агентами. Условия опыта были жесткими:

Отсутствие зрения: агенты не получали RGB-изображений или данных о глубине .
Сенсоры: единственным источником информации была эго-локация (ego-motion) — данные о том, на сколько метров агент продвинулся вперед и на какой угол повернулся .
Задача: добраться из точки А в точку Б в сложной среде с препятствиями (стенами, мебелью), используя только относительные координаты цели .
Архитектура: использовалась обычная рекуррентная нейросеть (LSTM или GRU) без каких-либо специализированных модулей картографирования .

Результаты оказались неожиданными для команды: слепые агенты не только научились достигать цели в 95% случаев, но и выработали стратегию, известную как «алгоритм жука» (bug algorithm) — они натыкались на стену и следовали вдоль неё до тех пор, пока не находили проход . По мнению Батры, это пример эмерджентного поведения, когда решение задачи рождает сложный алгоритм «само собой».

🧠 Биологические аналогии: от крыс Тоулмена до Нобелевской премии 15:49

Батра подчеркивает, что их работа опирается на десятилетия исследований навигации животных. Он приводит историческую ретроспективу, объясняющую, почему возникновение карт в ИИ так важно:

1948 год: Эдвард Тоулмен в Беркли доказал, что крысы в лабиринтах строят «когнитивные карты». Когда привычный путь блокировали, крысы находили кратчайшие пути (shortcuts), что доказывало: они не просто заучивают последовательность поворотов, а понимают структуру пространства .
1971 год: Джон О'Киф обнаружил в гиппокампе нейроны места (place cells), которые активируются при посещении определенных точек .
2005 год: Мей-Бритт и Эдвард Мозер открыли координатные нейроны (grid cells), работающие как внутренняя система GPS .
2014 год: Эти открытия были отмечены Нобелевской премией.

Батра утверждает, что его исследование подтверждает теорию конвергентной эволюции: искусственные системы приходят к тем же решениям (созданию карт), что и биологические организмы, когда сталкиваются с одинаковыми экологическими задачами .

🔍 Интроспекция нейросети: где прячется карта? 26:28

Исследователи провели «хирургический» анализ памяти LSTM, чтобы понять, что именно знает агент о мире. Были обнаружены следующие механизмы:

Нейроны детекции столкновений: Батра утверждает, что по внутренним представлениям RNN можно с точностью 98% предсказать, столкнулся ли агент с препятствием на последнем шаге .
Селективная память: Агенты проявляют феномен «забывания» тупиковых путей. Вероятность того, что агент помнит локацию, выше, если она находится на прямом пути к цели, и ниже, если она была частью случайного отклонения (экскурсии) .
Пересадка памяти: Чтобы доказать существование карт, ученые провели эксперимент по «трансплантации». Они брали веса памяти обученного агента и передавали новому. Второй агент сразу начинал использовать кратчайшие пути, пропуская этап исследования территории .

Батра признает, что, хотя они доказали наличие пространственной информации в памяти, они еще не нашли «механистического» объяснения уровня 2005 года — то есть не выделили конкретные эквиваленты координатных нейронов в коде нейросети .

🏗️ Гипотеза воплощенного интеллекта и Moravec’s Paradox 9:34

Батра активно развивает так называемую гипотезу воплощения (embodiment hypothesis). По его словам, единственный вид по-настоящему общего интеллекта (AGI), существующий в природе — это воплощенный интеллект .

Он упоминает парадокс Моравека: задачи, которые кажутся людям сложными (игра в шахматы или го), вычислительно легки для машин, в то время как «простые» действия (координация сенсорики и движений, манипуляция предметами) требуют колоссальных ресурсов ИИ .

Обсуждая текущий бум больших языковых моделей (LLM), Батра признается, что находится в состоянии внутреннего конфликта. С одной стороны, он верит, что интеллект должен иметь тело и взаимодействовать с 3D-миром. С другой стороны, прогресс «бестелесных» чат-ботов настолько велик, что возникает вопрос: есть ли у них потолок и можно ли достичь истинного разума только через текст?

🛠️ От симуляции к реальности: робот Spot и будущее 48:06

Несмотря на теоретическую направленность отмеченной наградой статьи, разработки Батры имеют прикладное значение. Он рассказал о недавнем проекте Adaptive Skill Coordination, где робот-пес Spot от Boston Dynamics выполнял задачи в реальном мире, основываясь исключительно на обучении в симуляции (Sim-to-Real) .

Робот перемещался в незнакомой среде, поднимал объекты и переносил их, не имея предварительного опыта в реальности .
Политика управления навигацией была основана на тех же LSTM-моделях и «картах без карт», что и в эксперименте с Habitat .

Батра считает ИИ не просто инженерной дисциплиной, а «наукой об интеллектуальных системах, которых еще не существует» . Он подчеркивает, что фундаментальные принципы интеллекта — такие как необходимость картографирования — должны выводиться через эксперименты, а не просто закладываться в код разработчиками .