Доктор Фей-Фей Ли, которую в индустрии часто называют «крёстной матерью ИИ», стояла у истоков глубокого обучения и создала ImageNet — проект, положивший конец «зиме ИИ». В интервью Ленни Рачитскому она анализирует путь технологий от маргинальных исследований до фундамента цивилизации, объясняет концепцию «пространственного интеллекта» и представляет свой новый амбициозный проект — компанию World Labs.
🕰️ От «зимы ИИ» до революции: как ImageNet изменил мир 9:35
Фей-Фей Ли отмечает, что современный ажиотаж вокруг искусственного интеллекта скрывает долгую и непростую историю дисциплины, которой уже более 70 лет . По её словам, поле исследований зародилось ещё в 1950-х годах, когда Джон Маккарти в Стэнфорде ввёл сам термин AI, а Алан Тьюринг задался вопросом о возможности создания «мыслящих машин» .
Переломный момент наступил, когда Ли осознала: для обучения нейросетей не хватает не только алгоритмов, но и данных. Она рассматривала ИИ через призму «визуального интеллекта», считая человека прежде всего визуальным существом . Это привело к созданию ImageNet в 2006–2007 годах.
Ключевые факты о проекте:
- Масштаб: Было собрано 15 миллионов изображений из интернета .
- Структура: Использовалась таксономия из 22 000 концептов, заимствованная из лингвистического проекта WordNet .
- Прорыв 2012 года: Команда профессора Джеффа Хинтона из Торонто использовала ImageNet и всего две видеокарты (GPU) от NVIDIA для создания алгоритма, который совершил качественный скачок в распознавании объектов .
Фей-Фей Ли утверждает, что «золотой рецепт» современного ИИ до сих пор состоит из трёх ингредиентов, заложенных тогда: большие данные, нейронные сети и графические процессоры (GPU) . Она также вспоминает, что ещё в 2015–2016 годах многие технологические компании избегали слова «ИИ», считая его «грязным» или обречённым на провал, и только к 2017 году это стало мейнстримом в маркетинге .
🧠 Проблема AGI и пределы современных чат-ботов 23:49
Несмотря на успех ChatGPT и других языковых моделей, Ли скептически относится к термину AGI (искусственный общий интеллект). По её мнению, это скорее маркетинговое, чем научное понятие . Она полагает, что мы всё ещё находимся в самом начале пути и современные модели лишены многих аспектов человеческого познания.
Ли приводит примеры того, что текущий ИИ не может сделать:
- Простая навигация и подсчёт: Модель не всегда способна точно посчитать количество стульев в видеоролике, что легко сделает даже ребёнок .
- Экстраполяция и абстракция: ИИ не может, получив данные о небесных телах, вывести фундаментальные уравнения движения, как это сделал Исаак Ньютон .
- Эмоциональный интеллект: Машины всё ещё не способны на глубокий разговор о страсти, мотивации и личных переживаниях на уровне человеческого наставника .
Фей-Фей Ли подчёркивает, что человеческий мозг потребляет всего около 20 Ватт энергии — меньше, чем тусклая лампочка, при этом выполняя задачи, требующие от ИИ огромных кластеров GPU .
🌍 World Labs: переход к пространственному интеллекту 30:33
Новым этапом в карьере Фей-Фей Ли стало создание компании World Labs в 2023 году. Её тезис заключается в том, что ИИ должен выйти за пределы языка и научиться понимать физический 3D-мир . Она называет это «пространственным интеллектом».
Ли описывает «модель мира» (World Model) как систему, которая позволяет не просто генерировать плоские видео (как Sora или аналоги), а создавать полноценно исследуемые трехмерные пространства .
Основные характеристики моделей World Labs:
- Взаимодействие: Возможность не только смотреть, но и перемещаться в пространстве, брать объекты, менять освещение .
- Разум в 3D: Модель должна понимать путь для робота или планировать действия в сложной физической обстановке .
- Пример с ДНК: Ли приводит аналогию с открытием структуры ДНК: учёные использовали плоский 2D-снимок рентгеновской дифракции, но смогли достроить в уме 3D-модель двойной спирали .
Первый продукт компании получил название Marble. Это приложение позволяет по текстовому промпту или изображению генерировать интерактивные 3D-миры . Ли отмечает, что во время рендеринга пользователи видят «облако точек», что стало преднамеренной визуальной деталью, вызывающей ассоциации с фильмом «Матрица» .
🎬 Применение Marble: от Голливуда до психотерапии 53:05
Хотя технология всё ещё на ранней стадии, Фей-Фей Ли выделяет несколько ключевых сфер её применения:
- Кинопроизводство (VFX): Виртуальный продакшн с использованием Marble позволяет сократить время работы над сценой в 40 раз . В сотрудничестве с Sony компания уже создала демонстрационные ролики, где актёры интегрированы в сгенерированные 3D-пространства .
- Робототехника: Главная проблема обучения роботов — нехватка данных. Marble позволяет генерировать бесконечное разнообразие синтетических сред для тренировки «мозгов» машин .
- Психология и медицина: Команды психологов уже обращаются к World Labs, чтобы использовать Marble для экспозиционной терапии (лечение фобий, таких как страх высоты или пауков) в контролируемых иммерсивных сценах .
- Игровая индустрия: Создание миров, которые можно экспортировать в игровые движки или VR .
🤖 Почему роботы сложнее чат-ботов: «Горький урок» 40:51
Обсуждая робототехнику, Ли ссылается на концепцию Ричарда Саттона «Горький урок» (The Bitter Lesson), согласно которой простые модели с огромным количеством данных всегда побеждают сложные модели с малым объёмом данных . Однако в робототехнике этот урок работает иначе.
Трудности обучения роботов, по мнению Ли:
- Отсутствие выравнивания: В языковых моделях на входе текст и на выходе текст. В робототехнике на входе могут быть видео из интернета, а на выходе должны быть физические действия в 3D, которых в видеофайлах нет в явном виде .
- Физическая реальность: Роботы — это физические системы, ближе к беспилотным автомобилям, чем к чат-ботам. Ли напоминает, что путь от первого прототипа беспилотника Стэнфорда (победа в DARPA Challenge 2005 года) до коммерческих Waymo занял 20 лет, хотя автомобиль — это «металлический ящик в 2D-плоскости», а робот должен взаимодействовать с миром в 3D .
🏛️ Гуманистический ИИ и ответственность 5:51
Фей-Фей Ли называет себя «гуманистом», а не утопистом. Она верит, что ИИ — это инструмент для улучшения цивилизации, но признаёт его «обоюдоострым мечом» . В 2018 году она стала сооснователем Института человекоцентричного ИИ в Стэнфорде (HAI), чтобы объединить технологии с гуманитарными науками, правом и политикой .
В рамках HAI Ли продвигает идею, что разработчики ИИ в Силиконовой долине должны активно общаться с политиками в Вашингтоне и Брюсселе . Она участвовала в разработке законопроекта о Национальном исследовательском облаке ИИ в США и консультирует ООН .
Её послание людям разных профессий:
- Музыканты и художники: ИИ должен стать инструментом для расширения их уникального видения, а не заменой их достоинства .
- Медсёстры: Ли надеется, что «умные камеры» и роботы-помощники снимут с медперсонала нагрузку по рутинному мониторингу и физическому труду, предотвращая выгорание .
- Молодые таланты: Ли советует не фокусироваться только на зарплате и FOMO (страхе упустить выгоду), а искать миссию и команду, в которую они верят .
«В искусственном интеллекте нет ничего искусственного», — заключает Фей-Фей Ли. «Он вдохновлён людьми, создан людьми и, самое главное, влияет на людей» .