Фей-Фей Ли: «Мы находимся в периоде глобального потепления ИИ»

В Стэнфордском университете стартовал обновленный курс CS231N — одна из самых влиятельных образовательных программ в мире, посвященная глубокому обучению для компьютерного зрения. Вступительную лекцию 2025 года провели легенда индустрии профессор Фей-Фей Ли (Fei-Fei Li) и профессор Эхсан Адели (Ehsan Adeli), представив эволюционный путь технологии: от первых биологических сенсоров в океане до современных генеративных моделей, трансформирующих экономику.

👁️ Зрение как фундамент интеллекта 0:57

По мнению профессора Фей-Фей Ли, компьютерное зрение не просто является частью искусственного интеллекта — оно выступает его «краеугольным камнем» . Ли утверждает, что разгадка тайны визуального интеллекта эквивалентна разгадке тайны интеллекта как такового . Она связывает развитие разума с «Кембрийским взрывом», произошедшим 540 миллионов лет назад.

Ключевые тезисы эволюционной теории зрения:

Кембрийский взрыв: За короткий по меркам эволюции период (около 10 млн лет) на Земле произошло резкое увеличение разнообразия видов .
Гипотеза «глаза»: Ли отмечает, что одной из самых убедительных теорий взрыва жизни является появление первых светочувствительных клеток у трилобитов .
Активное выживание: До появления зрения жизнь была пассивным метаболизмом; наличие сенсоров превратило животных в активных участников среды (хищников и жертв), что подстегнуло развитие нервной системы .
Биология человека: У людей более половины клеток коры головного мозга задействованы в обработке визуальной информации .

🧠 Биологический чертеж: от кошек до нейросетей 7:40

Современные архитектуры нейросетей уходят корнями в нейробиологические исследования 1950-х годов. Профессор Ли выделяет работу Хьюбела и Визеля (Hubel & Wiesel), которые в 1959 году изучали зрительные пути млекопитающих .

Основные открытия, легшие в основу глубокого обучения:

Рецептивные поля: Каждый нейрон отвечает за крошечный, специфический участок пространства и реагирует на простые паттерны, такие как ориентированные края (линии) .
Иерархическая структура: Нейроны первичной коры передают данные на более глубокие уровни, где формируются сложные концепции — от углов до целых объектов .

За эти исследования ученые впоследствии получили Нобелевскую премию по медицине . Ли подчеркивает, что именно эта иерархичность вдохновила создание многослойных искусственных нейронных сетей.

📉 История компьютерного зрения: от оптимизма к «зиме» 11:13

Первая PhD-диссертация по компьютерному зрению была написана Ларри Робертсом в 1963 году и посвящена распознаванию геометрических форм . Ли вспоминает курьезный случай из 1966 года, когда профессор MIT организовал летний проект для студентов с целью «решить проблему зрения за лето» . По ее словам, история ИИ полна избыточного оптимизма относительно сроков реализации сложных задач .

В 1970-х Дэвид Марр предложил системный подход к зрению, разделив процесс на этапы:

Primal Sketch: Выделение краев и границ .
2.5D Sketch: Понимание глубины и разделение планов (фигура/фон) .
3D Representation: Полная объемная модель мира — «святой Грааль» зрения .

Математически зрение является «некорректно поставленной задачей» (ill-posed problem), так как нам нужно восстановить 3D-мир из 2D-проекций на сетчатке . Природа решила это через бинокулярное зрение и триангуляцию, но, как считает Ли, человеческое зрение не обладает геометрической точностью — оно прагматично .

❄️ Эпоха «зимы ИИ» и скрытый прогресс 19:17

В период «зимы ИИ» (конец XX века), когда финансирование сократилось из-за нереализованных обещаний экспертных систем, исследования продолжались в области когнитивистики. Психологи обнаружили феноменальную скорость человеческого зрения.

Эксперименты Саймона Торпа (1970-е) показали:

Человеку достаточно 100 миллисекунд, чтобы заметить объект в кадре .
Через 150 миллисекунд после появления фото мозг уже генерирует дифференциальный сигнал классификации (например, животное или нет) .
Это поразительно, учитывая, что биологические нейроны («wetware») работают значительно медленнее транзисторов .

В 1990-х появились алгоритмы SIFT и первые системы распознавания лиц. Фей-Фей Ли вспоминает, что через пять лет после публикации фундаментальной статьи по детекции лиц технология уже появилась в цифровых камерах для автофокуса .

🚀 Революция ImageNet и триумф 2012 года 30:51

Долгое время сообщество ИИ фокусировалось на архитектурах, недооценивая важность данных. Ли утверждает, что отсутствие данных было не просто неудобством, а математической проблемой: модели высокой емкости переобучались без огромных обучающих выборок .

Для решения этой проблемы лаборатория Ли создала ImageNet:

Масштаб: 15 миллионов изображений, очищенных из миллиарда исходных .
Иерархия: 22 000 категорий объектов, что соответствует объему понятий, которые ребенок осваивает в первые годы жизни .
Конкурс ILSVRC: Курируемая выборка из 1 миллиона фото и 1000 классов для международного соревнования .

В 2012 году произошел перелом. Алгоритм AlexNet (Джеффри Хинтон и его студенты) сократил ошибку распознавания почти вдвое, использовав сверточную нейросеть (CNN) . Ли подчеркивает, что архитектурно AlexNet была похожа на Neocognitron Фукусимы 32-летней давности, но успех обеспечили два фактора: математически строгий метод обратного распространения ошибки (backpropagation) и колоссальный объем данных ImageNet .

🌡️ «Глобальное потепление ИИ» и современные вызовы 40:43

Фей-Фей Ли вводит термин «период глобального потепления ИИ», описывая текущий взрыв технологий . Движущими силами стали конвергенция вычислений (рост G-flops видеокарт NVIDIA), алгоритмов и данных .

Однако профессор предупреждает о рисках:

Человеческие предвзятости: Данные — это артефакты человеческой деятельности, они несут в себе наши предубеждения, которые наследуют алгоритмы распознавания лиц .
Социальные последствия: Алгоритмы могут принимать решения о найме на работу или выдаче кредитов, что требует участия юристов и социологов, а не только инженеров .
Превосходство человека: Несмотря на успехи, ИИ пока не обладает детским любопытством, чувством юмора и эмоциональной глубиной восприятия .

📚 Структура курса CS231N (2025) 44:50

Эхсан Адели представил обновленную программу курса, которая теперь включает самые актуальные темы индустрии. Обучение разделено на четыре блока:

Основы (Basics): Линейная классификация, регуляризация и оптимизация — «болты и гайки» глубокого обучения .
Задачи зрения (Computer Vision Tasks):
- Семантическая сегментация: Маркировка каждого пикселя (небо, трава, кошка) .
- Детекция объектов: Создание ограничивающих рамок (bounding boxes) вокруг целей .
- Инстанс-сегментация: Самый гранулярный уровень, где каждый отдельный объект получает свою маску .
Архитектуры и масштабирование: От CNN до трансформеров и методов распределенного обучения на огромных кластерах .
Генеративный интеллект: Диффузионные модели, Style Transfer и мультимодальные системы (связь текста и видео) .

Адели отметил, что в рамках третьего домашнего задания студенты будут реализовывать генеративную модель для создания эмодзи из текстовых описаний . Завершится курс изучением «воплощенного ИИ» (embodied AI) — роботов, которые должны не только видеть, но и планировать действия в физическом мире .