Фей-Фей Ли: «Мы находимся в периоде глобального потепления ИИ»

Stanford Online 485 тыс. 1 ч 2 мин 5 мин 02.09.2025
Главное

В Стэнфордском университете стартовал обновленный курс CS231N — одна из самых влиятельных образовательных программ в мире, посвященная глубокому обучению для компьютерного зрения. Вступительную лекцию 2025 года провели легенда индустрии профессор Фей-Фей Ли (Fei-Fei Li) и профессор Эхсан Адели (Ehsan Adeli), представив эволюционный путь технологии: от первых биологических сенсоров в океане до современных генеративных моделей, трансформирующих экономику.

👁️ Зрение как фундамент интеллекта 0:57

По мнению профессора Фей-Фей Ли, компьютерное зрение не просто является частью искусственного интеллекта — оно выступает его «краеугольным камнем» . Ли утверждает, что разгадка тайны визуального интеллекта эквивалентна разгадке тайны интеллекта как такового . Она связывает развитие разума с «Кембрийским взрывом», произошедшим 540 миллионов лет назад.

Ключевые тезисы эволюционной теории зрения:

🧠 Биологический чертеж: от кошек до нейросетей 7:40

Современные архитектуры нейросетей уходят корнями в нейробиологические исследования 1950-х годов. Профессор Ли выделяет работу Хьюбела и Визеля (Hubel & Wiesel), которые в 1959 году изучали зрительные пути млекопитающих .

Основные открытия, легшие в основу глубокого обучения:

  1. Рецептивные поля: Каждый нейрон отвечает за крошечный, специфический участок пространства и реагирует на простые паттерны, такие как ориентированные края (линии) .
  2. Иерархическая структура: Нейроны первичной коры передают данные на более глубокие уровни, где формируются сложные концепции — от углов до целых объектов .

За эти исследования ученые впоследствии получили Нобелевскую премию по медицине . Ли подчеркивает, что именно эта иерархичность вдохновила создание многослойных искусственных нейронных сетей.

📉 История компьютерного зрения: от оптимизма к «зиме» 11:13

Первая PhD-диссертация по компьютерному зрению была написана Ларри Робертсом в 1963 году и посвящена распознаванию геометрических форм . Ли вспоминает курьезный случай из 1966 года, когда профессор MIT организовал летний проект для студентов с целью «решить проблему зрения за лето» . По ее словам, история ИИ полна избыточного оптимизма относительно сроков реализации сложных задач .

В 1970-х Дэвид Марр предложил системный подход к зрению, разделив процесс на этапы:

Математически зрение является «некорректно поставленной задачей» (ill-posed problem), так как нам нужно восстановить 3D-мир из 2D-проекций на сетчатке . Природа решила это через бинокулярное зрение и триангуляцию, но, как считает Ли, человеческое зрение не обладает геометрической точностью — оно прагматично .

❄️ Эпоха «зимы ИИ» и скрытый прогресс 19:17

В период «зимы ИИ» (конец XX века), когда финансирование сократилось из-за нереализованных обещаний экспертных систем, исследования продолжались в области когнитивистики. Психологи обнаружили феноменальную скорость человеческого зрения.

Эксперименты Саймона Торпа (1970-е) показали:

В 1990-х появились алгоритмы SIFT и первые системы распознавания лиц. Фей-Фей Ли вспоминает, что через пять лет после публикации фундаментальной статьи по детекции лиц технология уже появилась в цифровых камерах для автофокуса .

🚀 Революция ImageNet и триумф 2012 года 30:51

Долгое время сообщество ИИ фокусировалось на архитектурах, недооценивая важность данных. Ли утверждает, что отсутствие данных было не просто неудобством, а математической проблемой: модели высокой емкости переобучались без огромных обучающих выборок .

Для решения этой проблемы лаборатория Ли создала ImageNet:

В 2012 году произошел перелом. Алгоритм AlexNet (Джеффри Хинтон и его студенты) сократил ошибку распознавания почти вдвое, использовав сверточную нейросеть (CNN) . Ли подчеркивает, что архитектурно AlexNet была похожа на Neocognitron Фукусимы 32-летней давности, но успех обеспечили два фактора: математически строгий метод обратного распространения ошибки (backpropagation) и колоссальный объем данных ImageNet .

🌡️ «Глобальное потепление ИИ» и современные вызовы 40:43

Фей-Фей Ли вводит термин «период глобального потепления ИИ», описывая текущий взрыв технологий . Движущими силами стали конвергенция вычислений (рост G-flops видеокарт NVIDIA), алгоритмов и данных .

Однако профессор предупреждает о рисках:

📚 Структура курса CS231N (2025) 44:50

Эхсан Адели представил обновленную программу курса, которая теперь включает самые актуальные темы индустрии. Обучение разделено на четыре блока:

  1. Основы (Basics): Линейная классификация, регуляризация и оптимизация — «болты и гайки» глубокого обучения .
  2. Задачи зрения (Computer Vision Tasks):
    • Семантическая сегментация: Маркировка каждого пикселя (небо, трава, кошка) .
    • Детекция объектов: Создание ограничивающих рамок (bounding boxes) вокруг целей .
    • Инстанс-сегментация: Самый гранулярный уровень, где каждый отдельный объект получает свою маску .
  3. Архитектуры и масштабирование: От CNN до трансформеров и методов распределенного обучения на огромных кластерах .
  4. Генеративный интеллект: Диффузионные модели, Style Transfer и мультимодальные системы (связь текста и видео) .

Адели отметил, что в рамках третьего домашнего задания студенты будут реализовывать генеративную модель для создания эмодзи из текстовых описаний . Завершится курс изучением «воплощенного ИИ» (embodied AI) — роботов, которые должны не только видеть, но и планировать действия в физическом мире .

💬 Цитаты

«Зрение — это не просто часть интеллекта, это его краеугольный камень.»

Фей-Фей Ли 01:10

«Мы находимся в периоде глобального потепления ИИ, и я не вижу признаков замедления.»

Фей-Фей Ли 40:30
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Кембрийский взрыв
Период в истории Земли 540 млн лет назад, когда резко увеличилось разнообразие живых организмов.
Backpropagation
Метод обратного распространения ошибки, используемый для обучения нейронных сетей.
Convolutional Neural Networks (CNN)
Сверточные нейронные сети, архитектура которых вдохновлена устройством зрительной коры мозга.
Style Transfer
Технология переноса художественного стиля одного изображения на контент другого.
📊 Цифры
🗓 Хронология
  1. 1959 Эксперименты Хьюбела и Визеля по изучению зрительной коры кошек.
  2. 1963 Ларри Робертс защищает первую PhD-диссертацию по компьютерному зрению.
  3. 1980 Кунихико Фукусима представляет Neocognitron — прообраз сверточных сетей.
  4. 2012 AlexNet побеждает в конкурсе ImageNet, запуская революцию Deep Learning.
  5. 2024 Джеффри Хинтон получает Нобелевскую премию по физике за вклад в развитие нейросетей.
⚖️ Другая сторона
Образование Fei-Fei Li CS231N ImageNet Stanford University AlexNet