Фей-Фей Ли и Джиту Пател о пространственном интеллекте и будущем 3D-моделей

На прошедшем саммите Cisco AI Summit исполнительный вице-президент Cisco Джиту Пател обсудил с выдающимся ученым в области искусственного интеллекта и соосновательницей World Labs Фей-Фей Ли будущее пространственного интеллекта (spatial intelligence). Они подробно рассмотрели работу новой модели Marble, фундаментальные эволюционные отличия восприятия от языка, а также перспективы применения 3D-моделей мира в робототехнике, медицине и корпоративном секторе.

👁️ Эволюция разума: почему пространственный интеллект важнее языка 0:00

По мнению Фей-Фей Ли, современная индустрия искусственного интеллекта слишком сильно сфокусирована на текстовых моделях, в то время как истинный фундамент разума лежит в восприятии физического мира . Опираясь на эволюционную биологию, исследовательница указывает, что первичное развитие нервной системы у живых организмов началось более полумиллиарда лет назад именно с появления зрения и осязания, а не с вербальной коммуникации .

Человеческий язык в эволюционном масштабе — крайне молодая надстройка, возраст которой, по самым оптимистичным оценкам, не превышает 500 тысяч лет . В то же время способность воспринимать свет, ориентироваться в пространстве и физически взаимодействовать с окружением формировалась на протяжении сотен миллионов лет, запустив «гонку вооружений» среди нервных систем живых существ .

С точки зрения Фей-Фей Ли, способность понимать, анализировать и безопасно перемещаться в реальном трехмерном и четырехмерном физическом мире является такой же фундаментальной основой для создания сильного ИИ (AGI), как и языковой интеллект . Ключевой технологией для этого перехода становится пространственный интеллект, разработкой которого и занимается ее стартап World Labs, созданный около двух лет назад группой молодых специалистов .

🎮 Модель Marble: создание управляемых 3D-миров нового поколения 2:11

В качестве первого практического шага на пути к пространственному интеллекту компания World Labs разработала модель под названием Marble . Фей-Фей Ли классифицирует ее как генеративную модель пространственного интеллекта первого поколения, которую разработчики также называют «моделью мира» (world model) .

Технические особенности модели Marble включают в себя следующие характеристики:

Мультимодальный ввод данных: модель способна обрабатывать различные типы входящих запросов — от короткого текстового описания или отдельного изображения до видеороликов и простых 3D-моделей .
Генерация полноценного 3D-пространства: на основе входящего промпта система создает полностью интерактивный и пригодный для навигации трехмерный мир .
Постоянная геометрическая консистентность: в отличие от современных генераторов видео, которые создают лишь иллюзию движения камеры, но искажают геометрию объектов, Marble выстраивает жесткую и постоянную трехмерную структуру сцены .
Поддержка физических симуляций: сгенерированные миры обладают точными геометрическими параметрами, что позволяет использовать их в качестве тренировочных полигонов для роботов или игровых движков .

Модель была официально представлена за два месяца до проведения саммита . Как подчеркивает Фей-Фей Ли, это лишь первая итерация технологии, однако уже сейчас она демонстрирует передовой уровень в области генерации 3D-миров .

🏥 От симуляции роботов до психотерапии: неожиданные сферы применения 3:46

Несмотря на ранний этап развития технологии, World Labs уже активно взаимодействует с первыми клиентами и партнерами . Помимо очевидных сценариев использования в игровой индустрии, создатели модели Marble столкнулись с рядом неожиданных запросов .

Среди текущих направлений практического применения выделяются:

Виртуальное кинопроизводство (VFX): специалисты по визуальным эффектам применяют модель в коммерческих проектах для быстрого построения виртуальных декораций и задних планов .
Обучение робототехники: совместно с крупными корпорациями, включая Nvidia, а также академическими лабораториями и стартапами, World Labs использует Marble для генерации виртуальных сред, в которых обучаются алгоритмы управления роботами .
Архитектура и дизайн интерьеров: дизайнеры используют возможности генерации для быстрого прототипирования помещений и интерактивной работы с пространством .
Клинические исследования в психиатрии: неожиданно высокий интерес к технологии проявили исследователи ментального здоровья. Для терапии пациентов с обсессивно-компульсивным расстройством (ОКР) требуются персонализированные интерактивные симуляции триггерных ситуаций (например, симуляция беспорядка или грязного белья) . Модель Marble позволяет психиатрам создавать индивидуальные детальные сцены за считанные минуты на основе простого текстового описания .
Велнес и фитнес: пользователи экспериментируют с генерацией персонализированных виртуальных пространств для занятий йогой и медитацией .

Фей-Фей Ли убеждена, что по мере совершенствования архитектуры модели количество горизонтальных сценариев использования будет только расти .

⚖️ Между утопией и апокалипсисом: Фей-Фей Ли о поляризации дискуссии вокруг ИИ 6:23

Имея многолетний опыт работы в сфере искусственного интеллекта, Фей-Фей Ли отмечает кардинальное изменение отношения общества к этой технологии . Если десять лет назад ИИ оставался предметом ее личного научного любопытства, а большинство людей «не знали, как правильно пишется эта аббревиатура», то сегодня развитие систем машинного обучения приобрело цивилизационный масштаб .

Главным вызовом современности исследовательница называет колоссальную скорость технологического прогресса, которая вызывает у специалистов и обывателей постоянную тревогу из-за невозможности уследить за лавиной научных публикаций, блогов и релизов новых моделей .

Кроме того, Фей-Фей Ли выражает глубокую обеспокоенность крайней поляризацией общественного мнения вокруг будущего ИИ . По ее словам, дискуссия в информационном пространстве ведется преимущественно на уровне двух крайностей:

Технологический утопизм: позиция, согласно которой технологии принесут человечеству исключительно благо, игнорируя риски двойного назначения .
Эсхатологический алармизм: нагнетание страха перед экзистенциальной угрозой уничтожения человечества машинами .

Фей-Фей Ли призывает уйти от кликбейтных лозунгов и перейти к более взвешенному, ответственному и гуманистическому обсуждению технологий . Она подчеркивает, что любой технологический инструмент — это обоюдоострый меч, но вектор его развития и применения определяют сами люди: инженеры, предприниматели, государственные деятели и рядовые граждане .

⚡ В чем измеряется успех технологий: аналогия с электричеством 10:45

Отвечая на вопрос Джиту Патела о том, как должен выглядеть успех ИИ в ближайшие годы на фоне опасений о массовой потере рабочих мест, Фей-Фей Ли проводит историческую аналогию с внедрением электричества около 150 лет назад .

В те времена людям было трудно в полной мере спрогнозировать долгосрочные последствия электрификации . Однако в конечном итоге успех технологии выразился в том, что школы получили освещение, дома наполнились теплом, станки повысили производительность труда, что привело к росту продолжительности жизни и доступности образования для детей .

По мнению исследовательницы, успех искусственного интеллекта не должен измеряться исключительно прибылью корпораций или абстрактными бенчмарками. Настоящим критерием успешности станет улучшение качества жизни человеческой цивилизации, где каждый отдельный человек получит больше возможностей для достижения счастья, процветания и сохранения собственного достоинства .

💻 Вычислительные мощности и «закон масштабирования» пространственных моделей 12:23

В ходе технической дискуссии Джиту Пател затронул вопрос о ресурсоемкости обучения пространственных моделей по сравнению с традиционными большими языковыми моделями (LLM) .

Фей-Фей Ли поясняет, что в области генерации трехмерных миров существуют разные подходы. Одни разработчики фокусируются на генерации обычного плоского видео (которое иногда называют «моделью мира»), другие же, как World Labs, создают эксплицитные 3D/4D представления физических объектов .

На текущий момент модель Marble требует существенно меньше вычислительных ресурсов, чем передовые LLM. Например, если для обучения гипотетической модели GPT-5 требуется около $10^{26}$ FLOPS вычислительной мощности, то затраты на Marble оказываются на несколько порядков ниже .

Такая разница обусловлена следующими факторами:

Молодость направления: если архитектура трансформеров развивается с момента публикации ключевой научной статьи в 2016 году (почти 10 лет), то глубокие исследования в области трехмерных моделей мира активно ведутся лишь последние пару лет .
Архитектурный поиск: наука о 3D-моделях все еще находится на стадии снижения базовых рисков (derisking) и поиска оптимальной архитектуры нейросетей, поэтому параметры моделей пока относительно невелики .

Тем не менее Фей-Фей Ли прогнозирует, что в ближайшие два года индустрия столкнется с бурным ростом масштабирования пространственных моделей и начнет активно двигаться по классической кривой «закона масштабирования» (scaling law) .

🚗 Проблема «грязных» данных и почему роботы сложнее беспилотных автомобилей 14:48

Одной из главных сложностей при разработке пространственного ИИ является дефицит качественных обучающих данных. В отличие от разработчиков текстовых моделей, которые могут использовать колоссальные объемы готовой текстовой информации из открытого интернета, создатели 3D-систем сталкиваются с физическими ограничениями .

Текстовые данные обладают понятной дискретной структурой и семантической чистотой, в то время как мир пикселей и вокселей гораздо более хаотичен и сложен для интерпретации .

Для решения этой проблемы World Labs применяет гибридный подход к сбору данных:

Использование общедоступных текстов, изображений и видео из интернета .
Генерация высокоточных синтетических симуляционных данных .
Сбор реальных пространственных данных с помощью трехмерного сканирования реального мира .

Аналогичный подход много лет используют разработчики беспилотных автомобилей (такие как Tesla и Waymo), собирая терабайты записей с дорог и комбинируя их с симуляциями .

При этом Фей-Фей Ли подчеркивает, что задача создания универсального робота-гуманоида несопоставимо сложнее создания беспилотного автомобиля . Для сравнения она приводит хронологию развития автономного транспорта: в 2006 году стэнфордская команда под руководством Себастьяна Труна успешно провела беспилотный автомобиль через пустыню Невады на расстояние 138 миль . И лишь спустя почти 20 лет, в 2023 году, коммерческие беспилотные такси Waymo начали полноценно курсировать по улицам Сан-Франциско .

Автомобиль — это условно квадратный объект, перемещающийся по плоскости (в двухмерном пространстве), главная задача которого — избегать любых касаний с препятствиями и пешеходами . Робот же представляет собой сложную многомерную систему, функционирующую в трехмерном пространстве. Более того, его фундаментальная цель противоположна автомобильной — он обязан активно прикасаться к физическим объектам, манипулировать ими с высокой точностью и аккуратностью, не разрушая их .

Сложнейшие технологические вызовы в области робототехники на сегодняшний день включают в себя:

Разработку мелкой моторики и ловкости механических рук (dexterity of hands) .
Обеспечение сверхточной работы компьютерного зрения в реальном времени .
Глубокое понимание физических свойств пространства и распределения объектов .

Именно необходимость решения этих фундаментальных научных проблем и подтолкнула Фей-Фей Ли к созданию World Labs .

🏢 Перспективы пространственного ИИ для бизнеса и индустрии 20:15

Завершая беседу, Фей-Фей Ли обратилась к представителям корпоративного сектора . Она подчеркнула, что технологии пространственного интеллекта носят выраженный горизонтальный характер и могут кардинально трансформировать самые разные отрасли бизнеса .

Среди перспективных корпоративных секторов для внедрения пространственных моделей выделяются:

Промышленность и логистика: автоматизация складов, оптимизация сборочных линий и контроль качества.
Сельское хозяйство: пространственный мониторинг угодий с помощью дронов и роботизированная уборка урожая.
Строительство и урбанистика: детальное городское планирование, проектирование инфраструктуры и мониторинг строительных объектов.
Здравоохранение: создание иммерсивных медицинских симуляторов для обучения хирургов и терапевтической реабилитации пациентов.
Финансовый сектор и страхование: точная оценка ущерба недвижимости или инфраструктурных объектов на основе анализа 3D-моделей.

Фей-Фей Ли призвала бизнес-сообщество не оставаться в стороне и активно участвовать в исследованиях и коммерческом освоении нового технологического рубежа совместно с командой World Labs .