Фей-Фей Ли: «AGI не будет полным без пространственного интеллекта»

Y Combinator 196 тыс. 44 мин 4 мин 01.07.2025
Главное

Фей-Фей Ли, которую часто называют «крёстной матерью ИИ», обсуждает переход от простого распознавания объектов к созданию полноценного пространственного интеллекта. В интервью для Y Combinator она рассказывает о своём новом стартапе World Labs, объясняет, почему зрение эволюционно важнее языка, и делится опытом управления прачечной, который помог ей стать успешным предпринимателем.

🚀 От ImageNet к AlexNet: Как данные изменили ИИ 0:27

История современного глубокого обучения началась с проекта ImageNet, представленного в 2009 году. На тот момент область компьютерного зрения находилась в тупике: алгоритмы не работали, индустрии не существовало, а данных практически не было. Фей-Фей Ли, будучи молодым профессором в Принстоне, сделала ставку на то, что для прогресса ИИ нужен качественный скачок в объёме обучающих выборок.

Ключевые вехи проекта ImageNet:

По словам Фей-Фей Ли, на тот момент ImageNet имел более 80 000 цитирований, став фундаментом для решения проблемы распознавания объектов.

🧠 Пространственный интеллект — следующая граница 12:45

Фей-Фей Ли считает, что AGI (общий искусственный интеллект) невозможно создать без понимания 3D-мира. Она проводит параллель с биологической эволюцией: если человеческий язык развивался менее 1 миллиона лет и присущ только людям, то зрение появилось у трилобитов 540 миллионов лет назад. Именно появление зрения спровоцировало «эволюционную гонку вооружений» и резкий скачок интеллекта животных.

Основные тезисы о пространственном интеллекте:

  1. Выход за пределы пикселей: ИИ должен понимать 3D-структуру, а не просто манипулировать плоскими картинками.
  2. Сложность по сравнению с LLM: Язык фундаментально одномерный (последовательность символов) и чисто генеративный. Зрение же требует понимания 4D-пространства (3D + время) и решения математически неопределённых задач проекции 3D-мира на 2D-сетчатку глаза.
  3. Континуум моделирования: Технология находится в диапазоне от чистой генерации (игры, метавселенные) до точной реконструкции реальности (робототехника).

🏗️ World Labs: Создание моделей мира 17:28

Для реализации этой амбициозной задачи Фей-Фей Ли основала стартап World Labs вместе с «командой мечты» из трёх экспертов: Джастином Джонсоном, Беном Милденхоллом и Кристофом Ласснером.

Компетенции сооснователей включают:

Цель World Labs — создание больших моделей мира, которые смогут не только генерировать визуальный контент, но и обладать пространственным пониманием для использования в архитектуре, дизайне, разработке игр и робототехнике. По мнению Фей-Фей Ли, это поможет преодолеть текущие барьеры в создании контента для метавселенных, где аппаратное обеспечение уже догоняет программное.

💼 Предпринимательство: От прачечной до Стэнфорда 25:53

Путь Фей-Фей Ли в ИИ не был линейным. В 19 лет, будучи иммигранткой и не владея английским, она была вынуждена управлять прачечной, чтобы содержать семью, параллельно изучая физику в Принстоне.

Уроки, которые она вынесла из этого опыта:

🎓 Советы молодым исследователям и взгляд на AGI 32:17

В ходе сессии вопросов и ответов Фей-Фей Ли дала рекомендации тем, кто только начинает путь в науке. По её мнению, в эпоху доминирования корпоративных ресурсов академическим исследователям стоит сосредоточиться на междисциплинарных проектах, теории объяснимости ИИ (explainability) и работе с малыми данными.

Относительно термина AGI профессор Ли настроена скептически. Она считает, что отцы-основатели ИИ в 1956 году изначально ставили целью создание машин, способных мыслить, поэтому современное разделение на «узкий ИИ» и AGI кажется ей искусственным. Прогресс в этой области — это просто естественное развитие науки об интеллекте.

В вопросе открытого ПО Фей-Фей Ли придерживается прагматичного подхода. Она полагает, что экосистема здорова, когда сосуществуют разные модели: открытые (как у Meta для роста экосистемы) и закрытые (для монетизации). Однако она подчеркнула, что открытый исходный код в публичном секторе должен быть защищён законом, так как он критически важен для инноваций.

💬 Цитаты

«Для меня AGI не будет полным без пространственного интеллекта. И я хочу решить эту проблему.»

Фей-Фей Ли 0:00

«Забудьте о том, что вы делали в прошлом. Забудьте о том, что о вас думают другие. Просто запритесь и стройте.»

Фей-Фей Ли 0:12

«Я ищу интеллектуальную бесстрашность. Это мужество взяться за что-то сложное и идти до конца.»

Фей-Фей Ли 30:55
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Пространственный интеллект
Способность ИИ понимать, моделировать и взаимодействовать с трехмерным миром.
NeRF
Технология создания трехмерных сцен на основе набора двухмерных фотографий с помощью нейросетей.
Дифференцируемый рендеринг
Метод компьютерной графики, позволяющий вычислять градиенты визуальных параметров для оптимизации 3D-моделей.
📊 Цифры
🗓 Хронология
  1. 2007 Начало работы над концепцией ImageNet.
  2. 2009 Публикация постера ImageNet на конференции CVPR.
  3. 2012 Момент AlexNet — прорыв глубокого обучения на конкурсе ImageNet.
  4. 2015 Публикация работ по описанию изображений (Image Captioning) вместе с Андреем Карпатым.
  5. 2024 Активная фаза найма и разработки в стартапе World Labs.
⚖️ Другая сторона
Искусственный интеллект Фей-Фей Ли World Labs ImageNet пространственный интеллект AlexNet