Фей-Фей Ли и Джиту Пател о пространственном интеллекте и будущем 3D-моделей

Cisco 1,5 млн 22 мин 8 мин 08.02.2026
Главное

На прошедшем саммите Cisco AI Summit исполнительный вице-президент Cisco Джиту Пател обсудил с выдающимся ученым в области искусственного интеллекта и соосновательницей World Labs Фей-Фей Ли будущее пространственного интеллекта (spatial intelligence). Они подробно рассмотрели работу новой модели Marble, фундаментальные эволюционные отличия восприятия от языка, а также перспективы применения 3D-моделей мира в робототехнике, медицине и корпоративном секторе.

👁️ Эволюция разума: почему пространственный интеллект важнее языка 0:00

По мнению Фей-Фей Ли, современная индустрия искусственного интеллекта слишком сильно сфокусирована на текстовых моделях, в то время как истинный фундамент разума лежит в восприятии физического мира . Опираясь на эволюционную биологию, исследовательница указывает, что первичное развитие нервной системы у живых организмов началось более полумиллиарда лет назад именно с появления зрения и осязания, а не с вербальной коммуникации .

Человеческий язык в эволюционном масштабе — крайне молодая надстройка, возраст которой, по самым оптимистичным оценкам, не превышает 500 тысяч лет . В то же время способность воспринимать свет, ориентироваться в пространстве и физически взаимодействовать с окружением формировалась на протяжении сотен миллионов лет, запустив «гонку вооружений» среди нервных систем живых существ .

С точки зрения Фей-Фей Ли, способность понимать, анализировать и безопасно перемещаться в реальном трехмерном и четырехмерном физическом мире является такой же фундаментальной основой для создания сильного ИИ (AGI), как и языковой интеллект . Ключевой технологией для этого перехода становится пространственный интеллект, разработкой которого и занимается ее стартап World Labs, созданный около двух лет назад группой молодых специалистов .

🎮 Модель Marble: создание управляемых 3D-миров нового поколения 2:11

В качестве первого практического шага на пути к пространственному интеллекту компания World Labs разработала модель под названием Marble . Фей-Фей Ли классифицирует ее как генеративную модель пространственного интеллекта первого поколения, которую разработчики также называют «моделью мира» (world model) .

Технические особенности модели Marble включают в себя следующие характеристики:

Модель была официально представлена за два месяца до проведения саммита . Как подчеркивает Фей-Фей Ли, это лишь первая итерация технологии, однако уже сейчас она демонстрирует передовой уровень в области генерации 3D-миров .

🏥 От симуляции роботов до психотерапии: неожиданные сферы применения 3:46

Несмотря на ранний этап развития технологии, World Labs уже активно взаимодействует с первыми клиентами и партнерами . Помимо очевидных сценариев использования в игровой индустрии, создатели модели Marble столкнулись с рядом неожиданных запросов .

Среди текущих направлений практического применения выделяются:

Фей-Фей Ли убеждена, что по мере совершенствования архитектуры модели количество горизонтальных сценариев использования будет только расти .

⚖️ Между утопией и апокалипсисом: Фей-Фей Ли о поляризации дискуссии вокруг ИИ 6:23

Имея многолетний опыт работы в сфере искусственного интеллекта, Фей-Фей Ли отмечает кардинальное изменение отношения общества к этой технологии . Если десять лет назад ИИ оставался предметом ее личного научного любопытства, а большинство людей «не знали, как правильно пишется эта аббревиатура», то сегодня развитие систем машинного обучения приобрело цивилизационный масштаб .

Главным вызовом современности исследовательница называет колоссальную скорость технологического прогресса, которая вызывает у специалистов и обывателей постоянную тревогу из-за невозможности уследить за лавиной научных публикаций, блогов и релизов новых моделей .

Кроме того, Фей-Фей Ли выражает глубокую обеспокоенность крайней поляризацией общественного мнения вокруг будущего ИИ . По ее словам, дискуссия в информационном пространстве ведется преимущественно на уровне двух крайностей:

  1. Технологический утопизм: позиция, согласно которой технологии принесут человечеству исключительно благо, игнорируя риски двойного назначения .
  2. Эсхатологический алармизм: нагнетание страха перед экзистенциальной угрозой уничтожения человечества машинами .

Фей-Фей Ли призывает уйти от кликбейтных лозунгов и перейти к более взвешенному, ответственному и гуманистическому обсуждению технологий . Она подчеркивает, что любой технологический инструмент — это обоюдоострый меч, но вектор его развития и применения определяют сами люди: инженеры, предприниматели, государственные деятели и рядовые граждане .

⚡ В чем измеряется успех технологий: аналогия с электричеством 10:45

Отвечая на вопрос Джиту Патела о том, как должен выглядеть успех ИИ в ближайшие годы на фоне опасений о массовой потере рабочих мест, Фей-Фей Ли проводит историческую аналогию с внедрением электричества около 150 лет назад .

В те времена людям было трудно в полной мере спрогнозировать долгосрочные последствия электрификации . Однако в конечном итоге успех технологии выразился в том, что школы получили освещение, дома наполнились теплом, станки повысили производительность труда, что привело к росту продолжительности жизни и доступности образования для детей .

По мнению исследовательницы, успех искусственного интеллекта не должен измеряться исключительно прибылью корпораций или абстрактными бенчмарками. Настоящим критерием успешности станет улучшение качества жизни человеческой цивилизации, где каждый отдельный человек получит больше возможностей для достижения счастья, процветания и сохранения собственного достоинства .

💻 Вычислительные мощности и «закон масштабирования» пространственных моделей 12:23

В ходе технической дискуссии Джиту Пател затронул вопрос о ресурсоемкости обучения пространственных моделей по сравнению с традиционными большими языковыми моделями (LLM) .

Фей-Фей Ли поясняет, что в области генерации трехмерных миров существуют разные подходы. Одни разработчики фокусируются на генерации обычного плоского видео (которое иногда называют «моделью мира»), другие же, как World Labs, создают эксплицитные 3D/4D представления физических объектов .

На текущий момент модель Marble требует существенно меньше вычислительных ресурсов, чем передовые LLM. Например, если для обучения гипотетической модели GPT-5 требуется около $10^{26}$ FLOPS вычислительной мощности, то затраты на Marble оказываются на несколько порядков ниже .

Такая разница обусловлена следующими факторами:

Тем не менее Фей-Фей Ли прогнозирует, что в ближайшие два года индустрия столкнется с бурным ростом масштабирования пространственных моделей и начнет активно двигаться по классической кривой «закона масштабирования» (scaling law) .

🚗 Проблема «грязных» данных и почему роботы сложнее беспилотных автомобилей 14:48

Одной из главных сложностей при разработке пространственного ИИ является дефицит качественных обучающих данных. В отличие от разработчиков текстовых моделей, которые могут использовать колоссальные объемы готовой текстовой информации из открытого интернета, создатели 3D-систем сталкиваются с физическими ограничениями .

Текстовые данные обладают понятной дискретной структурой и семантической чистотой, в то время как мир пикселей и вокселей гораздо более хаотичен и сложен для интерпретации .

Для решения этой проблемы World Labs применяет гибридный подход к сбору данных:

Аналогичный подход много лет используют разработчики беспилотных автомобилей (такие как Tesla и Waymo), собирая терабайты записей с дорог и комбинируя их с симуляциями .

При этом Фей-Фей Ли подчеркивает, что задача создания универсального робота-гуманоида несопоставимо сложнее создания беспилотного автомобиля . Для сравнения она приводит хронологию развития автономного транспорта: в 2006 году стэнфордская команда под руководством Себастьяна Труна успешно провела беспилотный автомобиль через пустыню Невады на расстояние 138 миль . И лишь спустя почти 20 лет, в 2023 году, коммерческие беспилотные такси Waymo начали полноценно курсировать по улицам Сан-Франциско .

Автомобиль — это условно квадратный объект, перемещающийся по плоскости (в двухмерном пространстве), главная задача которого — избегать любых касаний с препятствиями и пешеходами . Робот же представляет собой сложную многомерную систему, функционирующую в трехмерном пространстве. Более того, его фундаментальная цель противоположна автомобильной — он обязан активно прикасаться к физическим объектам, манипулировать ими с высокой точностью и аккуратностью, не разрушая их .

Сложнейшие технологические вызовы в области робототехники на сегодняшний день включают в себя:

Именно необходимость решения этих фундаментальных научных проблем и подтолкнула Фей-Фей Ли к созданию World Labs .

🏢 Перспективы пространственного ИИ для бизнеса и индустрии 20:15

Завершая беседу, Фей-Фей Ли обратилась к представителям корпоративного сектора . Она подчеркнула, что технологии пространственного интеллекта носят выраженный горизонтальный характер и могут кардинально трансформировать самые разные отрасли бизнеса .

Среди перспективных корпоративных секторов для внедрения пространственных моделей выделяются:

Фей-Фей Ли призвала бизнес-сообщество не оставаться в стороне и активно участвовать в исследованиях и коммерческом освоении нового технологического рубежа совместно с командой World Labs .

💬 Цитаты

«Способность понимать реальный трехмерный физический мир и взаимодействовать с ним столь же фундаментальна, как и языковой разум.»

Фей-Фей Ли 01:57

«Технология — это обоюдоострый меч, но свобода воли остается за нами.»

Фей-Фей Ли 09:47

«Успех ИИ выглядит так же, как успех электричества: когда цивилизация становится лучше.»

Фей-Фей Ли 11:57
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Пространственный интеллект (Spatial Intelligence)
Способность искусственного интеллекта воспринимать, моделировать и ориентироваться в трехмерной физической среде.
Модель мира (World Model)
ИИ-модель, способная предсказывать физические последствия действий внутри симулируемой трехмерной среды.
Вексель (Voxel)
Трехмерный пиксель, базовый элемент объемного изображения в компьютерной графике.
FLOPS
Единица измерения производительности компьютеров, показывающая количество операций с плавающей запятой в секунду.
📊 Цифры
🗓 Хронология
  1. Около 2022 года Фей-Фей Ли основывает стартап World Labs совместно с группой молодых ученых.
  2. 2006 год Себастьян Трун и команда Стэнфорда создают беспилотный автомобиль, проехавший 138 миль по пустыне.
  3. Около 2016 года Публикация фундаментальной научной статьи о архитектуре Transformer, давшей толчок развитию LLM.
  4. 2023 год Беспилотные автомобили Waymo начинают полноценное коммерческое движение на улицах Сан-Франциско.
  5. Осень 2024 года World Labs выпускает первую генеративную пространственную модель Marble.
⚖️ Другая сторона
Искусственный интеллект Фей-Фей Ли World Labs модель Marble пространственный интеллект