Как Фей-Фей Ли создает пространственный интеллект в World Labs

Сфера искусственного интеллекта стоит на пороге нового тектонического сдвига: вслед за бумом текстовых моделей наступает эра технологий, способных воспринимать и реконструировать физический мир. В рамках подкаста венчурного фонда a16z (Andreessen Horowitz) выдающийся ученый в области компьютерных наук Фей-Фей Ли (Fei-Fei Li) и инвестор Мартин Казадо обсудили концепцию «пространственного интеллекта» и то, как стартап World Labs планирует обучить машины глубокому пониманию трехмерной реальности.

🦄 В поисках «инвестора-единорога»: история создания World Labs 0:29

Фей-Фей Ли широко известна в индустрии как человек, который перевернул вектор развития нейросетей, внедрив в уравнение ИИ фактор больших данных, за что коллеги заслуженно называют её «крестной матерью ИИ». После многолетней академической карьеры в Стэнфорде и руководящей работы в Google Ли пришла к идее создания глубоко технологического стартапа World Labs. Для реализации этого масштабного проекта ей требовался не просто финансовый спонсор, а, по её собственным словам, «инвестор-единорог» — интеллектуальный партнер со специальным бэкграундом в сфере ИИ, способный пройти с предпринимателем через все взлеты и падения этой сложной сферы.

Таким партнером стал сооснователь венчурного фонда a16z Мартин Казадо, с которым Ли была знакома более десяти лет. По воспоминаниям Казадо, их взгляды сошлись во время официального обеда, где большинство гостей с восторгом обсуждали революцию больших языковых моделей (LLM). В разгар дискуссии Ли наклонилась к нему и отметила, что индустрия упускает из виду фундаментальный элемент — «модель мира» (world model). На тот момент большинство экспертов и потенциальных бизнес-партнеров, с которыми Ли делилась этой мыслью, лишь вежливо кивали, но не понимали сути. Чтобы проверить глубину понимания Казадо, Ли пригласила его на кофе в кампус Стэнфорда и попросила дать собственное определение модели мира. Его трактовка ИИ-модели, способной осознавать 3D-структуру, форму и композиционность объектов, идеально совпала с видением исследовательницы.

🗣️ Почему языковых моделей (LLM) недостаточно для реального мира 5:54

Фей-Фей Ли признается, что эмоционально удивлена тем, насколько далеко продвинулись современные дата-центричные ИИ-системы, демонстрируя поразительные эмерджентные свойства мышления. Тем не менее, по мнению Ли, истинная «путеводная звезда» (northstar) науки лежит за пределами текста. Исследовательница убеждена, что язык представляет собой мощный, но крайне ограниченный и «потерьный» (lossy) способ кодирования информации о физической реальности. Особенность языка заключается в том, что он чисто генеративен и не существует в дикой природе сам по себе — вокруг нас нет слогов или слов. В то же время трехмерный перцептивный мир первичен, и вся эволюционная история живых существ строилась на восприятии пространства и воплощенном интеллекте.

Для демонстрации этого тезиса Мартин Казадо предложил провести простой мысленный эксперимент, описывающий фундаментальную разницу между языковым и пространственным восприятием:

Если человеку завязать глаза, посадить в комнату и начать детально описывать пространство словами (например, указать, что чашка находится в 10 футах впереди, а слева расположен другой объект), его шансы успешно выполнить физическое задание будут ничтожно малы. Текст является слишком неточным инструментом для передачи сложной и точной структуры реальности.
Если же снять с человека повязку, его мозг мгновенно реконструирует трехмерное пространство, что позволяет безошибочно взаимодействовать с объектами, перемещать и касаться их.

По словам Казадо, человечество активно использует обработку языка для коммуникации и обмена высокоуровневыми идеями, но для навигации в реальном мире мы тотально полагаемся на способность реконструировать саму физическую среду.

🦎 Эволюционный парадокс: от рептилий до пространственного интеллекта 8:59

Собеседники отметили удивительный парадокс: с технологической точки зрения ИИ-индустрия сначала решила проблему языка, поскольку робототехника и навигация оказались гораздо более сложными вызовами. По данным Казадо, в отрасль беспилотных автомобилей (AV) с момента победы Себастьяна Труна на DARPA Grand Challenge в 2006 году было инвестировано порядка 100 миллиардов долларов, однако разработчики до сих пор сталкиваются с трудностями, хотя эта задача во многом является всего лишь двумерной. В то же время появившиеся внезапно языковые модели практически сразу продемонстрировали коммерческую эффективность и решили массу прикладных задач.

Фей-Фей Ли объясняет этот парадокс биологической эволюцией:

Участок человеческого мозга, отвечающий за обработку языка, сформировался относительно недавно, поэтому эволюционно люди все еще довольно неэффективны в этом процессе, и превосходство компьютеров здесь закономерно.
Пространственное мышление и навигационные механизмы развивались у живых существ на протяжении более 500 миллионов лет, пройдя жесткий естественный отбор.

Ли привела в пример свой давний разговор с шестилетним сыном, который спросил, почему у деревьев нет глаз. Ответ заключается в том, что деревья не двигаются, а значит, зрение им не требуется. Именно необходимость перемещаться и взаимодействовать с физическим миром породила перцептивный и пространственный интеллект, который, по мнению исследовательницы, лежит в основе открытий масштаба расшифровки 3D-структуры двойной спирали ДНК или строения молекулы фуллерена (Buckyball).

В качестве личного подтверждения важности 3D-восприятия Фей-Фей Ли поделилась историей о травме роговицы пятилетней давности, из-за которой она на несколько месяцев потеряла стереоскопическое зрение и была вынуждена смотреть на мир одним глазом. Как призналась исследовательница, этот опыт глубоко напугал её: ей было страшно водить машину даже в собственном тихом квартале. Обладая идеальным знанием габаритов своего автомобиля и дороги, без стереовидения она не могла точно оценить дистанцию до припаркованных машин и была вынуждена снижать скорость до 10 миль в час. Казадо подчеркнул, что этот пример наглядно объясняет, почему роботам недостаточно 2D-данных (например, обычного видео): в двух плоскостях координата глубины (ось Z) попросту отсутствует, что делает точную навигацию и захват предметов невозможными для компьютерных программ.

🔮 Бесконечные вселенные: практическое применение больших моделей мира 12:17

Концепция больших моделей мира (Large World Models) является строго горизонтальной, как и LLM, что обуславливает её универсальность. Мартин Казадо пояснил, что такие модели способны принимать ограниченный (двумерный) обзор объекта и генерировать его полную 3D-репрезентацию, включая невидимые участки — например, скрытую от глаз заднюю часть стола. Как только компьютер получает такую цифровую копию, он может производить с ней любые манипуляции: измерять, передвигать, ставить объекты друг на друга. Это открывает колоссальные возможности как для генеративного творчества, так и для прикладной инженерии.

По мнению Фей-Фей Ли и Мартина Казадо, основными сферами применения пространственного ИИ станут:

Визуальное творчество и дизайн: технология способна кардинально перевернуть процессы в кинематографе, архитектуре, индустриальном дизайне и проектировании сложного оборудования.
Воплощенный ИИ (Embodied AI) и робототехника: пространственный интеллект необходим любым движущимся машинам — от гуманоидных роботов до беспилотников — для обучения навигации и безопасной совместной работы с людьми.
Создание цифровых мультивселенных: исторически человечество было ограничено одной физической трехмерной Землей. Технологии World Labs, сочетающие генерацию и 3D-реконструкцию, позволят создавать бесконечные виртуальные вселенные для гейминга, социализации, туризма, сторителлинга и обучения роботов.

🛠️ На стыке ИИ и графики: академические корни и команда World Labs 19:27

Несмотря на то, что исследования в области компьютерного зрения велись в академической среде десятилетиями, Фей-Фей Ли убеждена, что для качественного рывка необходимы концентрированные усилия индустриального масштаба — колоссальные объемы вычислительных мощностей, данных и лучших талантов. В стартапе World Labs Ли удалось собрать междисциплинарную команду ученых, стоявших у истоков ключевых технологий трехмерного зрения:

Бен Милденхолл (Ben Mildenhall): сооснователь компании, чья пионерская работа по созданию нейронных полей сияния (NeRF) в Беркли совершила революцию в 3D-реконструкции с помощью глубокого обучения около четырех лет назад.
Кристоф Ласснер (Christoph Lassner): сооснователь, чьи исследования легли в основу популярного метода трехмерного представления данных с помощью гауссова сплэттинга (Gaussian Splatting).
Джастин Джонсон (Justin Johnson): бывший студент Фей-Фей Ли и сооснователь стартапа, представитель первого поколения исследователей глубокого обучения в компьютерном зрении, создававший базовые алгоритмы генерации изображений на основе GAN и технологий переноса стиля еще до повсеместного внедрения трансформеров.

Как отмечает Мартин Казадо, сложность проблемы пространственного интеллекта заключается в том, что её невозможно решить силами специалистов только из одной области. Для этого требуется синергия экспертов по ИИ (архитектура моделей, нейросети, диффузия) и специалистов по компьютерной графике, знающих, как эффективно представлять сложные трехмерные объекты в памяти компьютера и отображать их на экране. Именно объединение этих компетенций под одной крышей, по словам инвестора, позволит World Labs коммерциализировать и превратить академические наработки в горизонтальный продукт будущего.