Как Фей-Фей Ли создает пространственный интеллект в World Labs

a16z (Andreessen Horowitz) 46 тыс. 22 мин 6 мин 04.06.2025
Главное

Сфера искусственного интеллекта стоит на пороге нового тектонического сдвига: вслед за бумом текстовых моделей наступает эра технологий, способных воспринимать и реконструировать физический мир. В рамках подкаста венчурного фонда a16z (Andreessen Horowitz) выдающийся ученый в области компьютерных наук Фей-Фей Ли (Fei-Fei Li) и инвестор Мартин Казадо обсудили концепцию «пространственного интеллекта» и то, как стартап World Labs планирует обучить машины глубокому пониманию трехмерной реальности.

🦄 В поисках «инвестора-единорога»: история создания World Labs 0:29

Фей-Фей Ли широко известна в индустрии как человек, который перевернул вектор развития нейросетей, внедрив в уравнение ИИ фактор больших данных, за что коллеги заслуженно называют её «крестной матерью ИИ». После многолетней академической карьеры в Стэнфорде и руководящей работы в Google Ли пришла к идее создания глубоко технологического стартапа World Labs. Для реализации этого масштабного проекта ей требовался не просто финансовый спонсор, а, по её собственным словам, «инвестор-единорог» — интеллектуальный партнер со специальным бэкграундом в сфере ИИ, способный пройти с предпринимателем через все взлеты и падения этой сложной сферы.

Таким партнером стал сооснователь венчурного фонда a16z Мартин Казадо, с которым Ли была знакома более десяти лет. По воспоминаниям Казадо, их взгляды сошлись во время официального обеда, где большинство гостей с восторгом обсуждали революцию больших языковых моделей (LLM). В разгар дискуссии Ли наклонилась к нему и отметила, что индустрия упускает из виду фундаментальный элемент — «модель мира» (world model). На тот момент большинство экспертов и потенциальных бизнес-партнеров, с которыми Ли делилась этой мыслью, лишь вежливо кивали, но не понимали сути. Чтобы проверить глубину понимания Казадо, Ли пригласила его на кофе в кампус Стэнфорда и попросила дать собственное определение модели мира. Его трактовка ИИ-модели, способной осознавать 3D-структуру, форму и композиционность объектов, идеально совпала с видением исследовательницы.

🗣️ Почему языковых моделей (LLM) недостаточно для реального мира 5:54

Фей-Фей Ли признается, что эмоционально удивлена тем, насколько далеко продвинулись современные дата-центричные ИИ-системы, демонстрируя поразительные эмерджентные свойства мышления. Тем не менее, по мнению Ли, истинная «путеводная звезда» (northstar) науки лежит за пределами текста. Исследовательница убеждена, что язык представляет собой мощный, но крайне ограниченный и «потерьный» (lossy) способ кодирования информации о физической реальности. Особенность языка заключается в том, что он чисто генеративен и не существует в дикой природе сам по себе — вокруг нас нет слогов или слов. В то же время трехмерный перцептивный мир первичен, и вся эволюционная история живых существ строилась на восприятии пространства и воплощенном интеллекте.

Для демонстрации этого тезиса Мартин Казадо предложил провести простой мысленный эксперимент, описывающий фундаментальную разницу между языковым и пространственным восприятием:

По словам Казадо, человечество активно использует обработку языка для коммуникации и обмена высокоуровневыми идеями, но для навигации в реальном мире мы тотально полагаемся на способность реконструировать саму физическую среду.

🦎 Эволюционный парадокс: от рептилий до пространственного интеллекта 8:59

Собеседники отметили удивительный парадокс: с технологической точки зрения ИИ-индустрия сначала решила проблему языка, поскольку робототехника и навигация оказались гораздо более сложными вызовами. По данным Казадо, в отрасль беспилотных автомобилей (AV) с момента победы Себастьяна Труна на DARPA Grand Challenge в 2006 году было инвестировано порядка 100 миллиардов долларов, однако разработчики до сих пор сталкиваются с трудностями, хотя эта задача во многом является всего лишь двумерной. В то же время появившиеся внезапно языковые модели практически сразу продемонстрировали коммерческую эффективность и решили массу прикладных задач.

Фей-Фей Ли объясняет этот парадокс биологической эволюцией:

Ли привела в пример свой давний разговор с шестилетним сыном, который спросил, почему у деревьев нет глаз. Ответ заключается в том, что деревья не двигаются, а значит, зрение им не требуется. Именно необходимость перемещаться и взаимодействовать с физическим миром породила перцептивный и пространственный интеллект, который, по мнению исследовательницы, лежит в основе открытий масштаба расшифровки 3D-структуры двойной спирали ДНК или строения молекулы фуллерена (Buckyball).

В качестве личного подтверждения важности 3D-восприятия Фей-Фей Ли поделилась историей о травме роговицы пятилетней давности, из-за которой она на несколько месяцев потеряла стереоскопическое зрение и была вынуждена смотреть на мир одним глазом. Как призналась исследовательница, этот опыт глубоко напугал её: ей было страшно водить машину даже в собственном тихом квартале. Обладая идеальным знанием габаритов своего автомобиля и дороги, без стереовидения она не могла точно оценить дистанцию до припаркованных машин и была вынуждена снижать скорость до 10 миль в час. Казадо подчеркнул, что этот пример наглядно объясняет, почему роботам недостаточно 2D-данных (например, обычного видео): в двух плоскостях координата глубины (ось Z) попросту отсутствует, что делает точную навигацию и захват предметов невозможными для компьютерных программ.

🔮 Бесконечные вселенные: практическое применение больших моделей мира 12:17

Концепция больших моделей мира (Large World Models) является строго горизонтальной, как и LLM, что обуславливает её универсальность. Мартин Казадо пояснил, что такие модели способны принимать ограниченный (двумерный) обзор объекта и генерировать его полную 3D-репрезентацию, включая невидимые участки — например, скрытую от глаз заднюю часть стола. Как только компьютер получает такую цифровую копию, он может производить с ней любые манипуляции: измерять, передвигать, ставить объекты друг на друга. Это открывает колоссальные возможности как для генеративного творчества, так и для прикладной инженерии.

По мнению Фей-Фей Ли и Мартина Казадо, основными сферами применения пространственного ИИ станут:

🛠️ На стыке ИИ и графики: академические корни и команда World Labs 19:27

Несмотря на то, что исследования в области компьютерного зрения велись в академической среде десятилетиями, Фей-Фей Ли убеждена, что для качественного рывка необходимы концентрированные усилия индустриального масштаба — колоссальные объемы вычислительных мощностей, данных и лучших талантов. В стартапе World Labs Ли удалось собрать междисциплинарную команду ученых, стоявших у истоков ключевых технологий трехмерного зрения:

Как отмечает Мартин Казадо, сложность проблемы пространственного интеллекта заключается в том, что её невозможно решить силами специалистов только из одной области. Для этого требуется синергия экспертов по ИИ (архитектура моделей, нейросети, диффузия) и специалистов по компьютерной графике, знающих, как эффективно представлять сложные трехмерные объекты в памяти компьютера и отображать их на экране. Именно объединение этих компетенций под одной крышей, по словам инвестора, позволит World Labs коммерциализировать и превратить академические наработки в горизонтальный продукт будущего.

💬 Цитаты

«Язык — это мощный, но крайне ограниченный и «потерьный» (lossy) способ кодирования информации о нашей трехмерной физической реальности»

Фей-Фей Ли 06:34

«Человечество активно использует обработку языка для коммуникации, но для навигации в реальном мире мы тотально полагаемся на способность реконструировать саму физическую среду»

Мартин Казадо 08:47
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Модель мира (World Model)
ИИ-модель, способная понимать трехмерную структуру, форму и физические взаимосвязи объектов в пространстве.
Пространственный интеллект (Spatial Intelligence)
Способность воспринимать, анализировать и реконструировать 3D-пространство для взаимодействия с ним.
NeRF (Neural Radiance Fields)
Метод генерации трехмерных сцен по набору двухмерных фотографий с помощью нейросетей.
Гауссов сплэттинг (Gaussian Splatting)
Технология трехмерной графики для быстрой визуализации объемных сцен с использованием трехмерных гауссиан.
📊 Цифры
🗓 Хронология
  1. 2006 год Себастьян Трун побеждает в технологическом конкурсе DARPA Grand Challenge на автономных автомобилях.
  2. 2009 год Фей-Фей Ли присоединяется к Стэнфордскому университету в качестве молодого ассистента профессора.
  3. Около 2021-2022 годов Фей-Фей Ли временно теряет стереоскопическое зрение из-за травмы роговицы, что укрепляет её взгляды на важность 3D-моделей.
  4. Около 2022 года Бен Милденхолл и его коллеги представляют технологию NeRF, совершившую революцию в 3D-реконструкции.
⚖️ Другая сторона
Искусственный интеллект Фей-Фей Ли World Labs Мартин Казадо пространственный интеллект модели мира