# Фэй-Фэй Ли и Джастин Джонсон: «Пространственный интеллект — это фундамент будущего»

Источник: https://www.youtube.com/watch?v=vIXfYFB7aBI
Канал: a16z (Andreessen Horowitz)
Опубликовано: 20.09.2024

---

## Новая эра искусственного интеллекта: почему пространственный интеллект — следующий рубеж
[[JUMP:00:00]]

Индустрия ИИ переживает период бурного развития, переходя от чисто языковых моделей к пониманию физического и виртуального пространства. Профессор Стэнфордского университета Фэй-Фэй Ли и её коллега, исследователь Джастин Джонсон, основали компанию World Labs, чтобы сделать пространственный интеллект (spatial intelligence) фундаментальной технологией будущего.

### 🌌 Что такое пространственный интеллект
[[JUMP:20:02]]

Пространственный интеллект — это способность машин воспринимать, рассуждать и действовать в трёхмерном пространстве и во времени. По мнению Фэй-Фэй Ли, это не просто техническая задача, а фундаментальное свойство разума, сравнимое с языком или даже более древнее и важное для взаимодействия с миром.

Ключевые отличия от существующих подходов:

*   **1D против 3D:** Современные большие языковые модели (LLM) работают с одномерной последовательностью токенов, что ограничивает их понимание 3D-мира.
*   **Восприятие мира:** Язык — это сгенерированный человеком сигнал, тогда как 3D-мир подчиняется законам физики, обладает материальностью и структурой, которые нужно «раскрыть» через сенсоры.
*   **Слияние методов:** Пространственный интеллект объединяет компьютерное зрение, 3D-реконструкцию и генеративные модели, стирая границы между пониманием увиденного и созданием нового.

### 🛠 Путь к технологическому прорыву
[[JUMP:07:25]]

Джастин Джонсон утверждает, что история ИИ — это история вычислительных мощностей (compute). В качестве примера он приводит модель AlexNet (2012), которая произвела революцию в компьютерном зрении.

*   **Масштабирование:** Если раньше обучение AlexNet занимало 6 дней на двух видеокартах GTX 580, то современные чипы Nvidia GB200 справляются с сопоставимым объёмом вычислений менее чем за 5 минут.
*   **Эпоха данных:** Помимо compute, важнейшим фактором стало осознание того, что данные должны управлять моделями. Проект ImageNet стал «эпохой», которая сделала компьютерное зрение жизнеспособным.
*   **Алгоритмические вехи:** Важным моментом стало появление метода NeRF (Neural Radiance Fields), предложенного Беном Милденхоллом, который позволил эффективно восстанавливать 3D-структуру из 2D-изображений.

### 🚀 World Labs: от объектов к мирам
[[JUMP:33:07]]

Основатели World Labs выделяют три уровня сложности, на которых будет развиваться технология:

1.  **Объекты:** Распознавание отдельных предметов (стулья, чашки, микрофоны).
2.  **Сцены:** Композиции из объектов, как, например, эта студия записи.
3.  **Миры:** Выход за рамки привычного, создание динамических, интерактивных 3D-сред, где можно перемещаться, взаимодействовать с объектами и видеть их физические свойства.

По прогнозам экспертов, это откроет путь к новым формам медиа, образованию нового типа и развитию робототехники, где пространственный интеллект станет «операционной системой» для роботов,.

### 🤖 Применение в реальной жизни
[[JUMP:39:53]]

Несмотря на текущие ограничения оборудования (VR/AR-гарнитуры ещё не достигли массового рынка), команда видит огромный потенциал в смешанной реальности (MR):

*   **AR-помощники:** Устройства, которые всегда «смотрят» в мир и могут подсказать, как отремонтировать машину, даже если вы не механик.
*   **Робототехника:** Пространственный интеллект выступает мостом между цифровым «мозгом» робота и физическим миром.
*   **Депрекация экранов:** Со временем потребность во множестве экранов (смартфоны, планшеты, мониторы) может снизиться, так как информация будет бесшовно накладываться на физическую реальность.

Фэй-Фэй Ли отмечает, что успех для компании будет измеряться не только технологическими достижениями, но и тем, как много людей и бизнесов начнут использовать эти модели для удовлетворения своих потребностей в пространственном понимании.