Фей-Фей Ли: «В термине „искусственный интеллект“ нет ничего искусственного»

Доктор Фей-Фей Ли, которую в индустрии часто называют «крёстной матерью ИИ», стояла у истоков глубокого обучения и создала ImageNet — проект, положивший конец «зиме ИИ». В интервью Ленни Рачитскому она анализирует путь технологий от маргинальных исследований до фундамента цивилизации, объясняет концепцию «пространственного интеллекта» и представляет свой новый амбициозный проект — компанию World Labs.

🕰️ От «зимы ИИ» до революции: как ImageNet изменил мир 9:35

Фей-Фей Ли отмечает, что современный ажиотаж вокруг искусственного интеллекта скрывает долгую и непростую историю дисциплины, которой уже более 70 лет . По её словам, поле исследований зародилось ещё в 1950-х годах, когда Джон Маккарти в Стэнфорде ввёл сам термин AI, а Алан Тьюринг задался вопросом о возможности создания «мыслящих машин» .

Переломный момент наступил, когда Ли осознала: для обучения нейросетей не хватает не только алгоритмов, но и данных. Она рассматривала ИИ через призму «визуального интеллекта», считая человека прежде всего визуальным существом . Это привело к созданию ImageNet в 2006–2007 годах.

Ключевые факты о проекте:

Масштаб: Было собрано 15 миллионов изображений из интернета .
Структура: Использовалась таксономия из 22 000 концептов, заимствованная из лингвистического проекта WordNet .
Прорыв 2012 года: Команда профессора Джеффа Хинтона из Торонто использовала ImageNet и всего две видеокарты (GPU) от NVIDIA для создания алгоритма, который совершил качественный скачок в распознавании объектов .

Фей-Фей Ли утверждает, что «золотой рецепт» современного ИИ до сих пор состоит из трёх ингредиентов, заложенных тогда: большие данные, нейронные сети и графические процессоры (GPU) . Она также вспоминает, что ещё в 2015–2016 годах многие технологические компании избегали слова «ИИ», считая его «грязным» или обречённым на провал, и только к 2017 году это стало мейнстримом в маркетинге .

🧠 Проблема AGI и пределы современных чат-ботов 23:49

Несмотря на успех ChatGPT и других языковых моделей, Ли скептически относится к термину AGI (искусственный общий интеллект). По её мнению, это скорее маркетинговое, чем научное понятие . Она полагает, что мы всё ещё находимся в самом начале пути и современные модели лишены многих аспектов человеческого познания.

Ли приводит примеры того, что текущий ИИ не может сделать:

Простая навигация и подсчёт: Модель не всегда способна точно посчитать количество стульев в видеоролике, что легко сделает даже ребёнок .
Экстраполяция и абстракция: ИИ не может, получив данные о небесных телах, вывести фундаментальные уравнения движения, как это сделал Исаак Ньютон .
Эмоциональный интеллект: Машины всё ещё не способны на глубокий разговор о страсти, мотивации и личных переживаниях на уровне человеческого наставника .

Фей-Фей Ли подчёркивает, что человеческий мозг потребляет всего около 20 Ватт энергии — меньше, чем тусклая лампочка, при этом выполняя задачи, требующие от ИИ огромных кластеров GPU .

🌍 World Labs: переход к пространственному интеллекту 30:33

Новым этапом в карьере Фей-Фей Ли стало создание компании World Labs в 2023 году. Её тезис заключается в том, что ИИ должен выйти за пределы языка и научиться понимать физический 3D-мир . Она называет это «пространственным интеллектом».

Ли описывает «модель мира» (World Model) как систему, которая позволяет не просто генерировать плоские видео (как Sora или аналоги), а создавать полноценно исследуемые трехмерные пространства .

Основные характеристики моделей World Labs:

Взаимодействие: Возможность не только смотреть, но и перемещаться в пространстве, брать объекты, менять освещение .
Разум в 3D: Модель должна понимать путь для робота или планировать действия в сложной физической обстановке .
Пример с ДНК: Ли приводит аналогию с открытием структуры ДНК: учёные использовали плоский 2D-снимок рентгеновской дифракции, но смогли достроить в уме 3D-модель двойной спирали .

Первый продукт компании получил название Marble. Это приложение позволяет по текстовому промпту или изображению генерировать интерактивные 3D-миры . Ли отмечает, что во время рендеринга пользователи видят «облако точек», что стало преднамеренной визуальной деталью, вызывающей ассоциации с фильмом «Матрица» .

🎬 Применение Marble: от Голливуда до психотерапии 53:05

Хотя технология всё ещё на ранней стадии, Фей-Фей Ли выделяет несколько ключевых сфер её применения:

Кинопроизводство (VFX): Виртуальный продакшн с использованием Marble позволяет сократить время работы над сценой в 40 раз . В сотрудничестве с Sony компания уже создала демонстрационные ролики, где актёры интегрированы в сгенерированные 3D-пространства .
Робототехника: Главная проблема обучения роботов — нехватка данных. Marble позволяет генерировать бесконечное разнообразие синтетических сред для тренировки «мозгов» машин .
Психология и медицина: Команды психологов уже обращаются к World Labs, чтобы использовать Marble для экспозиционной терапии (лечение фобий, таких как страх высоты или пауков) в контролируемых иммерсивных сценах .
Игровая индустрия: Создание миров, которые можно экспортировать в игровые движки или VR .

🤖 Почему роботы сложнее чат-ботов: «Горький урок» 40:51

Обсуждая робототехнику, Ли ссылается на концепцию Ричарда Саттона «Горький урок» (The Bitter Lesson), согласно которой простые модели с огромным количеством данных всегда побеждают сложные модели с малым объёмом данных . Однако в робототехнике этот урок работает иначе.

Трудности обучения роботов, по мнению Ли:

Отсутствие выравнивания: В языковых моделях на входе текст и на выходе текст. В робототехнике на входе могут быть видео из интернета, а на выходе должны быть физические действия в 3D, которых в видеофайлах нет в явном виде .
Физическая реальность: Роботы — это физические системы, ближе к беспилотным автомобилям, чем к чат-ботам. Ли напоминает, что путь от первого прототипа беспилотника Стэнфорда (победа в DARPA Challenge 2005 года) до коммерческих Waymo занял 20 лет, хотя автомобиль — это «металлический ящик в 2D-плоскости», а робот должен взаимодействовать с миром в 3D .

🏛️ Гуманистический ИИ и ответственность 5:51

Фей-Фей Ли называет себя «гуманистом», а не утопистом. Она верит, что ИИ — это инструмент для улучшения цивилизации, но признаёт его «обоюдоострым мечом» . В 2018 году она стала сооснователем Института человекоцентричного ИИ в Стэнфорде (HAI), чтобы объединить технологии с гуманитарными науками, правом и политикой .

В рамках HAI Ли продвигает идею, что разработчики ИИ в Силиконовой долине должны активно общаться с политиками в Вашингтоне и Брюсселе . Она участвовала в разработке законопроекта о Национальном исследовательском облаке ИИ в США и консультирует ООН .

Её послание людям разных профессий:

Музыканты и художники: ИИ должен стать инструментом для расширения их уникального видения, а не заменой их достоинства .
Медсёстры: Ли надеется, что «умные камеры» и роботы-помощники снимут с медперсонала нагрузку по рутинному мониторингу и физическому труду, предотвращая выгорание .
Молодые таланты: Ли советует не фокусироваться только на зарплате и FOMO (страхе упустить выгоду), а искать миссию и команду, в которую они верят .

«В искусственном интеллекте нет ничего искусственного», — заключает Фей-Фей Ли. «Он вдохновлён людьми, создан людьми и, самое главное, влияет на людей» .