# Фей-Фей Ли: «В термине „искусственный интеллект“ нет ничего искусственного»

Источник: https://www.youtube.com/watch?v=Ctjiatnd6Xk
Канал: Lenny's Podcast
Опубликовано: 16.11.2025

---

Доктор Фей-Фей Ли, которую в индустрии часто называют «крёстной матерью ИИ», стояла у истоков глубокого обучения и создала ImageNet — проект, положивший конец «зиме ИИ». В интервью Ленни Рачитскому она анализирует путь технологий от маргинальных исследований до фундамента цивилизации, объясняет концепцию «пространственного интеллекта» и представляет свой новый амбициозный проект — компанию World Labs.

## 🕰️ От «зимы ИИ» до революции: как ImageNet изменил мир
[[JUMP:09:35]]

Фей-Фей Ли отмечает, что современный ажиотаж вокруг искусственного интеллекта скрывает долгую и непростую историю дисциплины, которой уже более 70 лет [11:24]. По её словам, поле исследований зародилось ещё в 1950-х годах, когда Джон Маккарти в Стэнфорде ввёл сам термин AI, а Алан Тьюринг задался вопросом о возможности создания «мыслящих машин» [11:54].

Переломный момент наступил, когда Ли осознала: для обучения нейросетей не хватает не только алгоритмов, но и данных. Она рассматривала ИИ через призму «визуального интеллекта», считая человека прежде всего визуальным существом [15:11]. Это привело к созданию ImageNet в 2006–2007 годах. 

Ключевые факты о проекте:

*   **Масштаб:** Было собрано 15 миллионов изображений из интернета [18:02].
*   **Структура:** Использовалась таксономия из 22 000 концептов, заимствованная из лингвистического проекта WordNet [18:17].
*   **Прорыв 2012 года:** Команда профессора Джеффа Хинтона из Торонто использовала ImageNet и всего две видеокарты (GPU) от NVIDIA для создания алгоритма, который совершил качественный скачок в распознавании объектов [18:57].

Фей-Фей Ли утверждает, что «золотой рецепт» современного ИИ до сих пор состоит из трёх ингредиентов, заложенных тогда: большие данные, нейронные сети и графические процессоры (GPU) [19:22]. Она также вспоминает, что ещё в 2015–2016 годах многие технологические компании избегали слова «ИИ», считая его «грязным» или обречённым на провал, и только к 2017 году это стало мейнстримом в маркетинге [22:12].

## 🧠 Проблема AGI и пределы современных чат-ботов
[[JUMP:23:49]]

Несмотря на успех ChatGPT и других языковых моделей, Ли скептически относится к термину AGI (искусственный общий интеллект). По её мнению, это скорее маркетинговое, чем научное понятие [25:54]. Она полагает, что мы всё ещё находимся в самом начале пути и современные модели лишены многих аспектов человеческого познания.

Ли приводит примеры того, что текущий ИИ не может сделать:

*   **Простая навигация и подсчёт:** Модель не всегда способна точно посчитать количество стульев в видеоролике, что легко сделает даже ребёнок [27:53].
*   **Экстраполяция и абстракция:** ИИ не может, получив данные о небесных телах, вывести фундаментальные уравнения движения, как это сделал Исаак Ньютон [29:41].
*   **Эмоциональный интеллект:** Машины всё ещё не способны на глубокий разговор о страсти, мотивации и личных переживаниях на уровне человеческого наставника [28:35].

Фей-Фей Ли подчёркивает, что человеческий мозг потребляет всего около 20 Ватт энергии — меньше, чем тусклая лампочка, при этом выполняя задачи, требующие от ИИ огромных кластеров GPU [47:52].

## 🌍 World Labs: переход к пространственному интеллекту
[[JUMP:30:33]]

Новым этапом в карьере Фей-Фей Ли стало создание компании World Labs в 2023 году. Её тезис заключается в том, что ИИ должен выйти за пределы языка и научиться понимать физический 3D-мир [34:40]. Она называет это «пространственным интеллектом».

Ли описывает «модель мира» (World Model) как систему, которая позволяет не просто генерировать плоские видео (как Sora или аналоги), а создавать полноценно исследуемые трехмерные пространства [34:53].

Основные характеристики моделей World Labs:

*   **Взаимодействие:** Возможность не только смотреть, но и перемещаться в пространстве, брать объекты, менять освещение [35:20].
*   **Разум в 3D:** Модель должна понимать путь для робота или планировать действия в сложной физической обстановке [35:34].
*   **Пример с ДНК:** Ли приводит аналогию с открытием структуры ДНК: учёные использовали плоский 2D-снимок рентгеновской дифракции, но смогли достроить в уме 3D-модель двойной спирали [37:58].

Первый продукт компании получил название Marble. Это приложение позволяет по текстовому промпту или изображению генерировать интерактивные 3D-миры [48:19]. Ли отмечает, что во время рендеринга пользователи видят «облако точек», что стало преднамеренной визуальной деталью, вызывающей ассоциации с фильмом «Матрица» [52:38].

## 🎬 Применение Marble: от Голливуда до психотерапии
[[JUMP:53:05]]

Хотя технология всё ещё на ранней стадии, Фей-Фей Ли выделяет несколько ключевых сфер её применения:

1.  **Кинопроизводство (VFX):** Виртуальный продакшн с использованием Marble позволяет сократить время работы над сценой в 40 раз [53:57]. В сотрудничестве с Sony компания уже создала демонстрационные ролики, где актёры интегрированы в сгенерированные 3D-пространства [53:44].
2.  **Робототехника:** Главная проблема обучения роботов — нехватка данных. Marble позволяет генерировать бесконечное разнообразие синтетических сред для тренировки «мозгов» машин [54:53].
3.  **Психология и медицина:** Команды психологов уже обращаются к World Labs, чтобы использовать Marble для экспозиционной терапии (лечение фобий, таких как страх высоты или пауков) в контролируемых иммерсивных сценах [56:15].
4.  **Игровая индустрия:** Создание миров, которые можно экспортировать в игровые движки или VR [54:24].

## 🤖 Почему роботы сложнее чат-ботов: «Горький урок»
[[JUMP:40:51]]

Обсуждая робототехнику, Ли ссылается на концепцию Ричарда Саттона «Горький урок» (The Bitter Lesson), согласно которой простые модели с огромным количеством данных всегда побеждают сложные модели с малым объёмом данных [41:28]. Однако в робототехнике этот урок работает иначе.

Трудности обучения роботов, по мнению Ли:

*   **Отсутствие выравнивания:** В языковых моделях на входе текст и на выходе текст. В робототехнике на входе могут быть видео из интернета, а на выходе должны быть физические действия в 3D, которых в видеофайлах нет в явном виде [43:48].
*   **Физическая реальность:** Роботы — это физические системы, ближе к беспилотным автомобилям, чем к чат-ботам. Ли напоминает, что путь от первого прототипа беспилотника Стэнфорда (победа в DARPA Challenge 2005 года) до коммерческих Waymo занял 20 лет, хотя автомобиль — это «металлический ящик в 2D-плоскости», а робот должен взаимодействовать с миром в 3D [46:06].

## 🏛️ Гуманистический ИИ и ответственность
[[JUMP:05:51]]

Фей-Фей Ли называет себя «гуманистом», а не утопистом. Она верит, что ИИ — это инструмент для улучшения цивилизации, но признаёт его «обоюдоострым мечом» [07:33]. В 2018 году она стала сооснователем Института человекоцентричного ИИ в Стэнфорде (HAI), чтобы объединить технологии с гуманитарными науками, правом и политикой [11:11].

В рамках HAI Ли продвигает идею, что разработчики ИИ в Силиконовой долине должны активно общаться с политиками в Вашингтоне и Брюсселе [113:26]. Она участвовала в разработке законопроекта о Национальном исследовательском облаке ИИ в США и консультирует ООН [113:56].

Её послание людям разных профессий:

*   **Музыканты и художники:** ИИ должен стать инструментом для расширения их уникального видения, а не заменой их достоинства [116:36].
*   **Медсёстры:** Ли надеется, что «умные камеры» и роботы-помощники снимут с медперсонала нагрузку по рутинному мониторингу и физическому труду, предотвращая выгорание [117:43].
*   **Молодые таланты:** Ли советует не фокусироваться только на зарплате и FOMO (страхе упустить выгоду), а искать миссию и команду, в которую они верят [109:51].

«В искусственном интеллекте нет ничего искусственного», — заключает Фей-Фей Ли. «Он вдохновлён людьми, создан людьми и, самое главное, влияет на людей» [07:47].