# Фей-Фей Ли: «Мы находимся в периоде глобального потепления ИИ»

Источник: https://www.youtube.com/watch?v=2fq9wYslV0A
Канал: Stanford Online
Опубликовано: 02.09.2025

---

В Стэнфордском университете стартовал обновленный курс **CS231N** — одна из самых влиятельных образовательных программ в мире, посвященная глубокому обучению для компьютерного зрения. Вступительную лекцию 2025 года провели легенда индустрии профессор Фей-Фей Ли (Fei-Fei Li) и профессор Эхсан Адели (Ehsan Adeli), представив эволюционный путь технологии: от первых биологических сенсоров в океане до современных генеративных моделей, трансформирующих экономику.

## 👁️ Зрение как фундамент интеллекта
[[JUMP:00:57]]

По мнению профессора Фей-Фей Ли, компьютерное зрение не просто является частью искусственного интеллекта — оно выступает его «краеугольным камнем» [01:10]. Ли утверждает, что разгадка тайны визуального интеллекта эквивалентна разгадке тайны интеллекта как такового [01:15]. Она связывает развитие разума с «Кембрийским взрывом», произошедшим 540 миллионов лет назад.

Ключевые тезисы эволюционной теории зрения:

*   **Кембрийский взрыв:** За короткий по меркам эволюции период (около 10 млн лет) на Земле произошло резкое увеличение разнообразия видов [03:36].
*   **Гипотеза «глаза»:** Ли отмечает, что одной из самых убедительных теорий взрыва жизни является появление первых светочувствительных клеток у трилобитов [04:32].
*   **Активное выживание:** До появления зрения жизнь была пассивным метаболизмом; наличие сенсоров превратило животных в активных участников среды (хищников и жертв), что подстегнуло развитие нервной системы [05:13].
*   **Биология человека:** У людей более половины клеток коры головного мозга задействованы в обработке визуальной информации [06:05].

## 🧠 Биологический чертеж: от кошек до нейросетей
[[JUMP:07:40]]

Современные архитектуры нейросетей уходят корнями в нейробиологические исследования 1950-х годов. Профессор Ли выделяет работу Хьюбела и Визеля (Hubel & Wiesel), которые в 1959 году изучали зрительные пути млекопитающих [08:07].

Основные открытия, легшие в основу глубокого обучения:

1.  **Рецептивные поля:** Каждый нейрон отвечает за крошечный, специфический участок пространства и реагирует на простые паттерны, такие как ориентированные края (линии) [09:01].
2.  **Иерархическая структура:** Нейроны первичной коры передают данные на более глубокие уровни, где формируются сложные концепции — от углов до целых объектов [10:09].

За эти исследования ученые впоследствии получили Нобелевскую премию по медицине [10:55]. Ли подчеркивает, что именно эта иерархичность вдохновила создание многослойных искусственных нейронных сетей.

## 📉 История компьютерного зрения: от оптимизма к «зиме»
[[JUMP:11:13]]

Первая PhD-диссертация по компьютерному зрению была написана Ларри Робертсом в 1963 году и посвящена распознаванию геометрических форм [11:13]. Ли вспоминает курьезный случай из 1966 года, когда профессор MIT организовал летний проект для студентов с целью «решить проблему зрения за лето» [11:53]. По ее словам, история ИИ полна избыточного оптимизма относительно сроков реализации сложных задач [12:18].

В 1970-х Дэвид Марр предложил системный подход к зрению, разделив процесс на этапы:

*   **Primal Sketch:** Выделение краев и границ [13:24].
*   **2.5D Sketch:** Понимание глубины и разделение планов (фигура/фон) [13:36].
*   **3D Representation:** Полная объемная модель мира — «святой Грааль» зрения [14:04].

Математически зрение является «некорректно поставленной задачей» (ill-posed problem), так как нам нужно восстановить 3D-мир из 2D-проекций на сетчатке [15:01]. Природа решила это через бинокулярное зрение и триангуляцию, но, как считает Ли, человеческое зрение не обладает геометрической точностью — оно прагматично [15:56].

## ❄️ Эпоха «зимы ИИ» и скрытый прогресс
[[JUMP:19:17]]

В период «зимы ИИ» (конец XX века), когда финансирование сократилось из-за нереализованных обещаний экспертных систем, исследования продолжались в области когнитивистики. Психологи обнаружили феноменальную скорость человеческого зрения.

Эксперименты Саймона Торпа (1970-е) показали:

*   Человеку достаточно **100 миллисекунд**, чтобы заметить объект в кадре [21:36].
*   Через **150 миллисекунд** после появления фото мозг уже генерирует дифференциальный сигнал классификации (например, животное или нет) [22:15].
*   Это поразительно, учитывая, что биологические нейроны («wetware») работают значительно медленнее транзисторов [22:42].

В 1990-х появились алгоритмы SIFT и первые системы распознавания лиц. Фей-Фей Ли вспоминает, что через пять лет после публикации фундаментальной статьи по детекции лиц технология уже появилась в цифровых камерах для автофокуса [24:43].

## 🚀 Революция ImageNet и триумф 2012 года
[[JUMP:30:51]]

Долгое время сообщество ИИ фокусировалось на архитектурах, недооценивая важность данных. Ли утверждает, что отсутствие данных было не просто неудобством, а математической проблемой: модели высокой емкости переобучались без огромных обучающих выборок [31:32].

Для решения этой проблемы лаборатория Ли создала **ImageNet**:

*   **Масштаб:** 15 миллионов изображений, очищенных из миллиарда исходных [32:26].
*   **Иерархия:** 22 000 категорий объектов, что соответствует объему понятий, которые ребенок осваивает в первые годы жизни [32:52].
*   **Конкурс ILSVRC:** Курируемая выборка из 1 миллиона фото и 1000 классов для международного соревнования [33:06].

В 2012 году произошел перелом. Алгоритм **AlexNet** (Джеффри Хинтон и его студенты) сократил ошибку распознавания почти вдвое, использовав сверточную нейросеть (CNN) [34:24]. Ли подчеркивает, что архитектурно AlexNet была похожа на Neocognitron Фукусимы 32-летней давности, но успех обеспечили два фактора: математически строгий метод обратного распространения ошибки (backpropagation) и колоссальный объем данных ImageNet [35:20].

## 🌡️ «Глобальное потепление ИИ» и современные вызовы
[[JUMP:40:43]]

Фей-Фей Ли вводит термин «период глобального потепления ИИ», описывая текущий взрыв технологий [40:43]. Движущими силами стали конвергенция вычислений (рост G-flops видеокарт NVIDIA), алгоритмов и данных [40:58].

Однако профессор предупреждает о рисках:

*   **Человеческие предвзятости:** Данные — это артефакты человеческой деятельности, они несут в себе наши предубеждения, которые наследуют алгоритмы распознавания лиц [42:35].
*   **Социальные последствия:** Алгоритмы могут принимать решения о найме на работу или выдаче кредитов, что требует участия юристов и социологов, а не только инженеров [43:14].
*   **Превосходство человека:** Несмотря на успехи, ИИ пока не обладает детским любопытством, чувством юмора и эмоциональной глубиной восприятия [44:22].

## 📚 Структура курса CS231N (2025)
[[JUMP:44:50]]

Эхсан Адели представил обновленную программу курса, которая теперь включает самые актуальные темы индустрии. Обучение разделено на четыре блока:

1.  **Основы (Basics):** Линейная классификация, регуляризация и оптимизация — «болты и гайки» глубокого обучения [48:04].
2.  **Задачи зрения (Computer Vision Tasks):**
    *   **Семантическая сегментация:** Маркировка каждого пикселя (небо, трава, кошка) [51:15].
    *   **Детекция объектов:** Создание ограничивающих рамок (bounding boxes) вокруг целей [51:43].
    *   **Инстанс-сегментация:** Самый гранулярный уровень, где каждый отдельный объект получает свою маску [51:56].
3.  **Архитектуры и масштабирование:** От CNN до трансформеров и методов распределенного обучения на огромных кластерах [54:24].
4.  **Генеративный интеллект:** Диффузионные модели, Style Transfer и мультимодальные системы (связь текста и видео) [57:27].

Адели отметил, что в рамках третьего домашнего задания студенты будут реализовывать генеративную модель для создания эмодзи из текстовых описаний [57:42]. Завершится курс изучением «воплощенного ИИ» (embodied AI) — роботов, которые должны не только видеть, но и планировать действия в физическом мире [59:27].