Фей-Фей Ли о будущем искусственного интеллекта и пространственном мышлении

Развитие искусственного интеллекта подошло к переломному моменту, когда доминирование чисто текстовых моделей уступает место освоению трехмерного физического пространства. В интервью для канала Eye on AI пионер компьютерного зрения Фей-Фей Ли рассказывает о работе своего нового стартапа World Labs и платформе Marble. Исследовательница объясняет, почему именно пространственный интеллект, а не только язык, станет фундаментом для создания сильного ИИ (AGI), способного полноценно понимать мир и взаимодействовать с ним.

🧠 От текста к пространству: почему LLM недостаточно 0:00

Пространственный интеллект является естественным и прямым продолжением всей научной карьеры Фей-Фей Ли в области компьютерного зрения. Технологии достигли уровня, когда ИИ больше не может просто «смотреть» на картинки или поверхностно анализировать простые видео. Современный этап требует глубокого пространственного восприятия, которое напрямую связывает ИИ с робототехникой, концепциями воплощенного (embodied AI) и контекстного (ambient AI) искусственного интеллекта.

По мнению Ли, современные большие языковые модели (LLM) демонстрируют удивительные результаты, однако огромная часть человеческих знаний попросту не закодирована в текстах. Чтобы приблизиться к общему искусственному интеллекту, алгоритмы должны получать опыт взаимодействия с миром напрямую или как минимум через видеопоток.

Человеческое обучение во многом строится на невербальном опыте взаимодействия с окружающей средой. Животные также не используют сложный язык для навигации и выживания, что доказывает первичность пространственного восприятия над лингвистическим. Таким образом, сжатие всего мирового опыта исключительно через текстовый канал видится исследовательнице тупиковым путем для эволюции ИИ.

⚔️ Подходы к моделированию мира: World Labs против Яна ЛеКуна 6:34

В научном сообществе ведутся активные дискуссии о том, как именно ИИ должен аккумулировать знания о физическом пространстве. Ведущий подкаста противопоставил подход стартапа World Labs концепции Яна ЛеКуна, который сфокусирован на формировании абстрактных внутренних репрезентаций физических законов из видео без обязательного создания внешней визуальной реальности.

Фей-Фей Ли заявляет, что не считает правильным противопоставлять свой подход идеям ЛеКуна, поскольку они находятся в едином континууме интеллектуальных подходов к моделированию мира. В своем «Манифесте пространственного интеллекта» Ли подчеркивает, что для создания универсальной модели потребуются оба типа репрезентаций:

Скрытые (implicit) репрезентации: внутренние структуры данных, с помощью которых модель кодирует закономерности среды.
Явные (explicit) репрезентации: точные трехмерные структуры, которые модель выдает на выходном слое для практического использования.

Текущая флагманская модель стартапа World Labs под названием Marble нацелена на генерацию стабильных и перманентных 3D-пространств, сквозь которые пользователь может свободно перемещаться. При этом архитектура Marble изначально задумывалась как мультимодальная. В качестве входных данных система способна принимать самые разные форматы:

Простые текстовые промпты.
Одно или несколько двумерных изображений.
Видеоролики.
Грубые трехмерные макеты, состоящие из ограничивающих рамок (boxes) или вокселей (voxels).

🏎️ Модель RTFM и технологические ограничения 13:39

Техническим фундаментом для разработок World Labs стала специализированная модель RTFM (Real Time Frame Model). Фей-Фей Ли со смехом подтверждает, что название модели является ироничной отсылкой к известному в среде программистов выражению «Read The F*ing Manual» («читай грёбаное руководство»), которую придумал один из блестящих исследователей её команды.

Основная задача RTFM — осуществлять генерацию на уровне отдельных кадров, сохраняя при этом строгую геометрическую консистентность и перманентность объектов при движении камеры. В отличие от многих существующих видеомоделей, которые «забывают» структуру пространства при изменении ракурса, RTFM удерживает геометрию сцены.

Важнейшим достижением своей команды Ли называет высочайшую вычислительную эффективность алгоритма. Инференс (работа обученной модели) RTFM успешно выполняется на одном-единственном графическом чипе Nvidia H100 GPU. Гостья отмечает, что создатели других крупных frame-based моделей обычно скрывают точное количество ускорителей, используемых при инференсе, однако, по её предположениям, там задействованы куда более массивные вычислительные кластеры.

🎯 В поисках универсальной целевой функции пространственного ИИ 15:26

Одним из главных драйверов успеха генеративного ИИ в текстовой сфере стало открытие безупречной объективной функции — предсказания следующего токена (next token prediction). Язык линеен, его легко токенизировать, а сама функция обучения идеально совпадает с итоговой задачей инференса. В пространственном же моделировании все намного сложнее, поскольку отношения человека и животных с физическим миром не ограничиваются генерацией. Мир нужно наблюдать, интерпретировать, рассуждать о нем и взаимодействовать с ним.

В научном сообществе идет активный поиск аналогичной фундаментальной функции для пространственного ИИ, и на данный момент есть несколько гипотез, к которым Ли относится с разной степенью скепсиса:

Точная 3D-реконструкция мира: ряд исследователей считает её идеальной целевой функцией. Ли сомневается в этом тезисе, аргументируя тем, что мозг большинства хищников (например, тигра) или человека не занимается в реальности математически точной 3D-реконструкцией, но при этом обладает великолепным пространственным интеллектом.
Предсказание следующего кадра (next frame prediction): мощный подход, заставляющий модель невольно учить структуру мира, так как видео — это не белый шум. Однако Ли считает этот вариант не до конца удовлетворительным, поскольку он принудительно схлопывает трехмерную реальность в плоскость 2D, что приводит к неоправданной потере информации.

🌊 Физика, семантика и иллюзия понимания 23:05

Когда пользователь перемещает камеру в сгенерированном Marble пространстве, возникает резонный вопрос: понимает ли алгоритм базовые законы природы, например, закон гравитации при приближении к обрыву или непроницаемость твердых тел?

Фей-Фей Ли призывает к осторожности и подчеркивает, что вся «физика», которую сегодня демонстрируют генеративные нейросети (включая популярные видеогенераторы), основана исключительно на статистике, а не на ньютоновских законах сил и масс. Модель имитирует движение воды или колыхание листьев просто потому, что видела миллионы аналогичных паттернов в обучающей выборке. Ни один современный пиксельный или языковой ИИ не способен самостоятельно абстрагироваться до выведения формул классической механики из визуальных данных.

В будущем, как прогнозирует исследовательница, генеративные нейросети неизбежно сольются с классическими физическими и игровыми движками (вроде Unreal Engine) в единые «нейропространственные движки» (neurospatial engines).

Что касается термина «понимание», Ли отмечает, что ИИ понимает концепты на глубоком семантическом уровне, но это понимание принципиально отличается от человеческого. У ИИ нет биологического тела, сознания или гормональных реакций, которые окрашивают наше восприятие.

Тем не менее в продвинутом режиме Marble пользователь может дать текстовую команду: «Мне не нравится этот розовый диван, сделай его синим», и система корректно изменит цвет объекта. Это доказывает наличие у модели устойчивых семантических связей, хотя у неё все еще отсутствует долгосрочная память об этом диване или способность использовать его свойства для сторонних задач.

🌐 Цифровая мультивселенная и экономика будущего 39:18

Исторически весь опыт человечества был ограничен одной физической реальностью — планетой Земля. С развитием цифровых технологий люди получили доступ к бескрайней цифровой мультивселенной (multiverse). Ли категорически отвергает как антиутопические сценарии о полном уходе человечества в виртуальные миры с отказом от реальности, так и гиперболизированные утопии, где все поголовно носят VR-гарнитуры.

Пространственный ИИ от World Labs создается для решения прикладных задач в реальной экономике. Полноценные 3D-модели критически необходимы для целого спектра индустрий:

Создание визуальных эффектов (VFX) и разработка видеоигр.
Интерьерный дизайн и архитектурное проектирование.
Симуляция сред для обучения автономных автомобилей и промышленных роботов (создание цифровых двойников).
Интерактивное иммерсивное образование.

Ли делится личным воспоминанием: в колледже ей было крайне тяжело изучать химию, где требовалось мысленно выстраивать асимметричные молекулярные структуры и понимать их пространственное расположение. Возможность буквально «потрогать» и рассмотреть молекулы в интерактивной 3D-среде могла бы в корне изменить образовательный процесс, ведь даже дети до освоения речи учатся исключительно через иммерсивный опыт.

Кроме того, пространственные технологии помогут преодолеть географические границы в сфере труда. Гостья видит огромные перспективы в развитии телеуправления (teleoperation) роботами. В будущем инженеры и создатели контента смогут совместно работать из разных точек планеты, управляя роботизированными манипуляторами через общее цифровое пространство. Это откроет дорогу к сложнейшим операциям — вплоть до дистанционной добычи редкоземельных металлов на астероидах.

🔬 Почему трансформеры — не предел научной мысли 49:32

Вспоминания свою дискуссию с Эриком Шмидтом и Питером Диамандисом в Саудовской Аравии, Ли затронула тему научной креативности ИИ. Шмидт высказывал мнение, что если аккумулировать все спутниковые данные о движении небесных тел и передать их современному ИИ, алгоритм сможет самостоятельно вывести законы движения Ньютона.

Фей-Фей Ли относится к этой идее скептически. По её мнению, ИИ сегодня гораздо ближе к тому, чтобы самостоятельно разгадать геометрическую структуру двойной спирали ДНК (что подтверждается успехами в предсказании свертывания белков типа AlphaFold), чем сформулировать специальную теорию относительности Эйнштейна.

Причина кроется в том, что формулирование фундаментальных физических законов требует выхода на каузальный (причинно-следственный) уровень абстракции. Физик оперирует абстрактными концептами сил, масс и фундаментальных констант, которые не являются просто статистическими паттернами. В рамках текущей архитектуры трансформеров (Transformer) Ли не видит математических механизмов, способных генерировать абстракции такого уровня.

Для подлинного научного прорыва человечеству придется разработать принципиально новые алгоритмические архитектуры. Гостья выражает твердую уверенность в том, что трансформеры не станут последним словом в истории ИИ, поскольку за тысячи лет своей истории человечество никогда не прекращало технологический поиск.

🧺 Личные истории: от химчистки до Калтеха 32:52

Путь Фей-Фей Ли к вершинам мировой науки был тернистым: в начале своей карьеры в США ей приходилось параллельно с учебой управлять небольшой семейной химчисткой в Нью-Джерси. Рассказывая о своей текущей жизни, исследовательница отмечает, что у нее практически нет свободного времени, поскольку её работа приносит ей колоссальное удовольствие.

Ли замужем за итальянским ученым, который также специализируется на искусственном интеллекте и при этом является феноменальным поваром, поэтому дома они чаще всего отдают предпочтение итальянской кухне. Когда же в семье объявляется «кулинарный нейтралитет», они выбирают японские блюда.

Главным «постыдным удовольствием» (guilty pleasure) во время изнурительных авиаперелетов Фей-Фей Ли называет просмотр сериала «Теория большого взрыва». Будучи выпускницей Калифорнийского технологического института (Калтех) по специальности «Физика», Ли признается, что понимает абсолютно каждую научную шутку в шоу и невероятно сильно ассоциирует себя со всеми персонажами-гиками этого сериала.

В качестве финальной цели своей будущей карьеры Фей-Фей Ли видит создание супермодели пространственного интеллекта, которая сможет бесшовно объединить в себе три ключевых столпа: восприятие, пространственное рассуждение и планирование действий.