Фей-Фей Ли: «AGI не будет полным без пространственного интеллекта»

Фей-Фей Ли, которую часто называют «крёстной матерью ИИ», обсуждает переход от простого распознавания объектов к созданию полноценного пространственного интеллекта. В интервью для Y Combinator она рассказывает о своём новом стартапе World Labs, объясняет, почему зрение эволюционно важнее языка, и делится опытом управления прачечной, который помог ей стать успешным предпринимателем.

🚀 От ImageNet к AlexNet: Как данные изменили ИИ 0:27

История современного глубокого обучения началась с проекта ImageNet, представленного в 2009 году. На тот момент область компьютерного зрения находилась в тупике: алгоритмы не работали, индустрии не существовало, а данных практически не было. Фей-Фей Ли, будучи молодым профессором в Принстоне, сделала ставку на то, что для прогресса ИИ нужен качественный скачок в объёме обучающих выборок.

Ключевые вехи проекта ImageNet:

Масштаб: Команда скачала около 1 миллиарда изображений из интернета, чтобы создать полную визуальную таксономию мира.
Челлендж: Для стимулирования сообщества был запущен ежегодный конкурс ImageNet Challenge. В первые годы уровень ошибок составлял около 30%.
Прорыв 2012 года: Команда Джеффри Хинтона (под названием Supervision) представила нейросеть, позже ставшую известной как AlexNet. Это был момент слияния трёх факторов: огромных данных, алгоритмов сверточных нейросетей (CNN) и мощностей GPU.

По словам Фей-Фей Ли, на тот момент ImageNet имел более 80 000 цитирований, став фундаментом для решения проблемы распознавания объектов.

🧠 Пространственный интеллект — следующая граница 12:45

Фей-Фей Ли считает, что AGI (общий искусственный интеллект) невозможно создать без понимания 3D-мира. Она проводит параллель с биологической эволюцией: если человеческий язык развивался менее 1 миллиона лет и присущ только людям, то зрение появилось у трилобитов 540 миллионов лет назад. Именно появление зрения спровоцировало «эволюционную гонку вооружений» и резкий скачок интеллекта животных.

Основные тезисы о пространственном интеллекте:

Выход за пределы пикселей: ИИ должен понимать 3D-структуру, а не просто манипулировать плоскими картинками.
Сложность по сравнению с LLM: Язык фундаментально одномерный (последовательность символов) и чисто генеративный. Зрение же требует понимания 4D-пространства (3D + время) и решения математически неопределённых задач проекции 3D-мира на 2D-сетчатку глаза.
Континуум моделирования: Технология находится в диапазоне от чистой генерации (игры, метавселенные) до точной реконструкции реальности (робототехника).

🏗️ World Labs: Создание моделей мира 17:28

Для реализации этой амбициозной задачи Фей-Фей Ли основала стартап World Labs вместе с «командой мечты» из трёх экспертов: Джастином Джонсоном, Беном Милденхоллом и Кристофом Ласснером.

Компетенции сооснователей включают:

Кристоф Ласснер: Создатель Pulsar, эксперт в области дифференцируемого рендеринга.
Джастин Джонсон: Специалист по системному инжинирингу и нейронному переносу стиля в реальном времени.
Бен Милденхолл: Автор фундаментальной работы по NeRF (Neural Radiance Fields).

Цель World Labs — создание больших моделей мира, которые смогут не только генерировать визуальный контент, но и обладать пространственным пониманием для использования в архитектуре, дизайне, разработке игр и робототехнике. По мнению Фей-Фей Ли, это поможет преодолеть текущие барьеры в создании контента для метавселенных, где аппаратное обеспечение уже догоняет программное.

💼 Предпринимательство: От прачечной до Стэнфорда 25:53

Путь Фей-Фей Ли в ИИ не был линейным. В 19 лет, будучи иммигранткой и не владея английским, она была вынуждена управлять прачечной, чтобы содержать семью, параллельно изучая физику в Принстоне.

Уроки, которые она вынесла из этого опыта:

Умение начинать с нуля: Фей-Фей Ли называет состояние «Ground Zero» (нулевой отметки) своей зоной комфорта. Она советует фаундерам игнорировать прошлое и чужое мнение, просто сосредоточившись на созидании.
Академия как стартап: Она руководила институтом Stanford HAI в течение пяти лет в режиме стартапа, что иногда вызывало недовольство в университетской среде, но позволило быстро создать «маяк человекоцентричного ИИ».
Интеллектуальная бесстрашность: Это главное качество, которое профессор ищет в студентах и сотрудниках. Она утверждает, что готовность браться за задачи на грани «безумия» (delusional) — ключ к успеху.

🎓 Советы молодым исследователям и взгляд на AGI 32:17

В ходе сессии вопросов и ответов Фей-Фей Ли дала рекомендации тем, кто только начинает путь в науке. По её мнению, в эпоху доминирования корпоративных ресурсов академическим исследователям стоит сосредоточиться на междисциплинарных проектах, теории объяснимости ИИ (explainability) и работе с малыми данными.

Относительно термина AGI профессор Ли настроена скептически. Она считает, что отцы-основатели ИИ в 1956 году изначально ставили целью создание машин, способных мыслить, поэтому современное разделение на «узкий ИИ» и AGI кажется ей искусственным. Прогресс в этой области — это просто естественное развитие науки об интеллекте.

В вопросе открытого ПО Фей-Фей Ли придерживается прагматичного подхода. Она полагает, что экосистема здорова, когда сосуществуют разные модели: открытые (как у Meta для роста экосистемы) и закрытые (для монетизации). Однако она подчеркнула, что открытый исходный код в публичном секторе должен быть защищён законом, так как он критически важен для инноваций.