Фей-Фей Ли о будущем роботов: „ИИ должен научиться действовать“

Эра «пространственного интеллекта»: как ИИ учится видеть и действовать в реальном мире 🤖 0:04

В истории Земли появление зрения полмиллиарда лет назад стало катализатором «кембрийского взрыва» — периода, когда жизнь начала стремительно усложняться, а биологические виды — эволюционировать, получая способность видеть, понимать и действовать. Фей-Фей Ли, пионер в области ИИ, утверждает, что сегодня мы стоим на пороге аналогичного момента для компьютерных систем и робототехники. Современный ИИ переходит от простого распознавания изображений к «пространственному интеллекту» — способности машин воспринимать трехмерный мир, предсказывать развитие событий и взаимодействовать с физической средой.

От распознавания образов к пониманию пространства 👁️ 2:17

Развитие компьютерного зрения в последние десятилетия стало возможным благодаря конвергенции трёх факторов: мощных алгоритмов нейронных сетей, специализированного «железа» (графических процессоров GPU) и больших массивов данных, таких как ImageNet, содержащий 15 млн изображений.

Ли отмечает, что за последние годы индустрия прошла путь от классификации объектов до сложных генеративных моделей. Ключевые этапы этой эволюции:

Генеративные модели: Современные алгоритмы, основанные на диффузионных моделях, способны создавать фото и видео по текстовому описанию (например, Sora от OpenAI или разработанная в лаборатории Ли модель Walt).
3D-реконструкция: Новые алгоритмы Google позволяют преобразовывать набор обычных фотографий в 3D-пространство.
Генерация пространств: Исследования в Стэнфорде и Мичиганском университете демонстрируют способность ИИ превращать одно изображение или текстовую строку в полноценные 3D-макеты комнат или бесконечные виртуальные пространства.

По мнению Ли, «пространственный интеллект» — это не просто способность видеть, это неразрывная связь между восприятием и действием. Как и человеческий мозг, мгновенно оценивающий геометрию предметов и их отношения в пространстве, ИИ должен учиться предсказывать «что произойдет дальше».

Робототехника и обучение через поведение 🦾 8:56

Чтобы роботы стали полноценными «воплощенными» системами, их нужно обучать не только на статических данных, но и в симуляционных средах, моделирующих физические взаимодействия. Проект Behavior, реализуемый в лаборатории Фей-Фей Ли, направлен на обучение роботов различным бытовым действиям.

Благодаря интеграции больших языковых моделей (LLM), роботы уже способны выполнять многоступенчатые задачи на основе вербальных инструкций:

Открытие ящиков стола.
Отключение зарядных устройств от сети.
Приготовление сэндвичей, включая работу с ингредиентами и сервировку.

Перспективы в здравоохранении: от наблюдения к помощи 🏥 11:11

Фей-Фей Ли особенно выделяет потенциал технологий в медицине. Лабораторные исследования уже применяют методы «эмбиентного интеллекта» (ambient intelligence) для решения критических задач:

Детекция соблюдения гигиены рук персоналом.
Отслеживание хирургических инструментов.
Мониторинг рисков падения пациентов.

В будущем Ли видит ИИ не только как «пару лишних глаз», но и как «пару лишних рук». Она представила пилотный проект, где пациент с параличом управляет роботом-манипулятором с помощью мозговых сигналов (через EEG-шапочку) для приготовления пищи, что подчеркивает огромный потенциал синергии между нейроинтерфейсами и пространственным ИИ.

Человекоцентричный подход к ИИ 🌍 13:23

Фей-Фей Ли настаивает, что создание «цифрового кембрийского взрыва» потребует ответственного подхода. Технологии должны разрабатываться так, чтобы ставить человека в центр: не просто автоматизировать процессы, а выступать в роли надежных партнеров, которые повышают продуктивность, уважают человеческое достоинство и способствуют коллективному процветанию. По её словам, будущее ИИ заключается в развитии способности машин к пониманию контекста и взаимодействию в нашем общем 3D-мире, превращая их в полноценных цифровых компаньонов.