Фэй-Фэй Ли и Джастин Джонсон: «Пространственный интеллект — это фундамент будущего»

Новая эра искусственного интеллекта: почему пространственный интеллект — следующий рубеж 0:00

Индустрия ИИ переживает период бурного развития, переходя от чисто языковых моделей к пониманию физического и виртуального пространства. Профессор Стэнфордского университета Фэй-Фэй Ли и её коллега, исследователь Джастин Джонсон, основали компанию World Labs, чтобы сделать пространственный интеллект (spatial intelligence) фундаментальной технологией будущего.

🌌 Что такое пространственный интеллект 20:02

Пространственный интеллект — это способность машин воспринимать, рассуждать и действовать в трёхмерном пространстве и во времени. По мнению Фэй-Фэй Ли, это не просто техническая задача, а фундаментальное свойство разума, сравнимое с языком или даже более древнее и важное для взаимодействия с миром.

Ключевые отличия от существующих подходов:

1D против 3D: Современные большие языковые модели (LLM) работают с одномерной последовательностью токенов, что ограничивает их понимание 3D-мира.
Восприятие мира: Язык — это сгенерированный человеком сигнал, тогда как 3D-мир подчиняется законам физики, обладает материальностью и структурой, которые нужно «раскрыть» через сенсоры.
Слияние методов: Пространственный интеллект объединяет компьютерное зрение, 3D-реконструкцию и генеративные модели, стирая границы между пониманием увиденного и созданием нового.

🛠 Путь к технологическому прорыву 7:25

Джастин Джонсон утверждает, что история ИИ — это история вычислительных мощностей (compute). В качестве примера он приводит модель AlexNet (2012), которая произвела революцию в компьютерном зрении.

Масштабирование: Если раньше обучение AlexNet занимало 6 дней на двух видеокартах GTX 580, то современные чипы Nvidia GB200 справляются с сопоставимым объёмом вычислений менее чем за 5 минут.
Эпоха данных: Помимо compute, важнейшим фактором стало осознание того, что данные должны управлять моделями. Проект ImageNet стал «эпохой», которая сделала компьютерное зрение жизнеспособным.
Алгоритмические вехи: Важным моментом стало появление метода NeRF (Neural Radiance Fields), предложенного Беном Милденхоллом, который позволил эффективно восстанавливать 3D-структуру из 2D-изображений.

🚀 World Labs: от объектов к мирам 33:07

Основатели World Labs выделяют три уровня сложности, на которых будет развиваться технология:

Объекты: Распознавание отдельных предметов (стулья, чашки, микрофоны).
Сцены: Композиции из объектов, как, например, эта студия записи.
Миры: Выход за рамки привычного, создание динамических, интерактивных 3D-сред, где можно перемещаться, взаимодействовать с объектами и видеть их физические свойства.

По прогнозам экспертов, это откроет путь к новым формам медиа, образованию нового типа и развитию робототехники, где пространственный интеллект станет «операционной системой» для роботов,.

🤖 Применение в реальной жизни 39:53

Несмотря на текущие ограничения оборудования (VR/AR-гарнитуры ещё не достигли массового рынка), команда видит огромный потенциал в смешанной реальности (MR):

AR-помощники: Устройства, которые всегда «смотрят» в мир и могут подсказать, как отремонтировать машину, даже если вы не механик.
Робототехника: Пространственный интеллект выступает мостом между цифровым «мозгом» робота и физическим миром.
Депрекация экранов: Со временем потребность во множестве экранов (смартфоны, планшеты, мониторы) может снизиться, так как информация будет бесшовно накладываться на физическую реальность.

Фэй-Фэй Ли отмечает, что успех для компании будет измеряться не только технологическими достижениями, но и тем, как много людей и бизнесов начнут использовать эти модели для удовлетворения своих потребностей в пространственном понимании.