Новая эра искусственного интеллекта: почему пространственный интеллект — следующий рубеж 0:00
Индустрия ИИ переживает период бурного развития, переходя от чисто языковых моделей к пониманию физического и виртуального пространства. Профессор Стэнфордского университета Фэй-Фэй Ли и её коллега, исследователь Джастин Джонсон, основали компанию World Labs, чтобы сделать пространственный интеллект (spatial intelligence) фундаментальной технологией будущего.
🌌 Что такое пространственный интеллект 20:02
Пространственный интеллект — это способность машин воспринимать, рассуждать и действовать в трёхмерном пространстве и во времени. По мнению Фэй-Фэй Ли, это не просто техническая задача, а фундаментальное свойство разума, сравнимое с языком или даже более древнее и важное для взаимодействия с миром.
Ключевые отличия от существующих подходов:
- 1D против 3D: Современные большие языковые модели (LLM) работают с одномерной последовательностью токенов, что ограничивает их понимание 3D-мира.
- Восприятие мира: Язык — это сгенерированный человеком сигнал, тогда как 3D-мир подчиняется законам физики, обладает материальностью и структурой, которые нужно «раскрыть» через сенсоры.
- Слияние методов: Пространственный интеллект объединяет компьютерное зрение, 3D-реконструкцию и генеративные модели, стирая границы между пониманием увиденного и созданием нового.
🛠 Путь к технологическому прорыву 7:25
Джастин Джонсон утверждает, что история ИИ — это история вычислительных мощностей (compute). В качестве примера он приводит модель AlexNet (2012), которая произвела революцию в компьютерном зрении.
- Масштабирование: Если раньше обучение AlexNet занимало 6 дней на двух видеокартах GTX 580, то современные чипы Nvidia GB200 справляются с сопоставимым объёмом вычислений менее чем за 5 минут.
- Эпоха данных: Помимо compute, важнейшим фактором стало осознание того, что данные должны управлять моделями. Проект ImageNet стал «эпохой», которая сделала компьютерное зрение жизнеспособным.
- Алгоритмические вехи: Важным моментом стало появление метода NeRF (Neural Radiance Fields), предложенного Беном Милденхоллом, который позволил эффективно восстанавливать 3D-структуру из 2D-изображений.
🚀 World Labs: от объектов к мирам 33:07
Основатели World Labs выделяют три уровня сложности, на которых будет развиваться технология:
- Объекты: Распознавание отдельных предметов (стулья, чашки, микрофоны).
- Сцены: Композиции из объектов, как, например, эта студия записи.
- Миры: Выход за рамки привычного, создание динамических, интерактивных 3D-сред, где можно перемещаться, взаимодействовать с объектами и видеть их физические свойства.
По прогнозам экспертов, это откроет путь к новым формам медиа, образованию нового типа и развитию робототехники, где пространственный интеллект станет «операционной системой» для роботов,.
🤖 Применение в реальной жизни 39:53
Несмотря на текущие ограничения оборудования (VR/AR-гарнитуры ещё не достигли массового рынка), команда видит огромный потенциал в смешанной реальности (MR):
- AR-помощники: Устройства, которые всегда «смотрят» в мир и могут подсказать, как отремонтировать машину, даже если вы не механик.
- Робототехника: Пространственный интеллект выступает мостом между цифровым «мозгом» робота и физическим миром.
- Депрекация экранов: Со временем потребность во множестве экранов (смартфоны, планшеты, мониторы) может снизиться, так как информация будет бесшовно накладываться на физическую реальность.
Фэй-Фэй Ли отмечает, что успех для компании будет измеряться не только технологическими достижениями, но и тем, как много людей и бизнесов начнут использовать эти модели для удовлетворения своих потребностей в пространственном понимании.