В Стэнфордском университете стартовал обновленный курс CS231N — одна из самых влиятельных образовательных программ в мире, посвященная глубокому обучению для компьютерного зрения. Вступительную лекцию 2025 года провели легенда индустрии профессор Фей-Фей Ли (Fei-Fei Li) и профессор Эхсан Адели (Ehsan Adeli), представив эволюционный путь технологии: от первых биологических сенсоров в океане до современных генеративных моделей, трансформирующих экономику.
👁️ Зрение как фундамент интеллекта 0:57
По мнению профессора Фей-Фей Ли, компьютерное зрение не просто является частью искусственного интеллекта — оно выступает его «краеугольным камнем» . Ли утверждает, что разгадка тайны визуального интеллекта эквивалентна разгадке тайны интеллекта как такового . Она связывает развитие разума с «Кембрийским взрывом», произошедшим 540 миллионов лет назад.
Ключевые тезисы эволюционной теории зрения:
- Кембрийский взрыв: За короткий по меркам эволюции период (около 10 млн лет) на Земле произошло резкое увеличение разнообразия видов .
- Гипотеза «глаза»: Ли отмечает, что одной из самых убедительных теорий взрыва жизни является появление первых светочувствительных клеток у трилобитов .
- Активное выживание: До появления зрения жизнь была пассивным метаболизмом; наличие сенсоров превратило животных в активных участников среды (хищников и жертв), что подстегнуло развитие нервной системы .
- Биология человека: У людей более половины клеток коры головного мозга задействованы в обработке визуальной информации .
🧠 Биологический чертеж: от кошек до нейросетей 7:40
Современные архитектуры нейросетей уходят корнями в нейробиологические исследования 1950-х годов. Профессор Ли выделяет работу Хьюбела и Визеля (Hubel & Wiesel), которые в 1959 году изучали зрительные пути млекопитающих .
Основные открытия, легшие в основу глубокого обучения:
- Рецептивные поля: Каждый нейрон отвечает за крошечный, специфический участок пространства и реагирует на простые паттерны, такие как ориентированные края (линии) .
- Иерархическая структура: Нейроны первичной коры передают данные на более глубокие уровни, где формируются сложные концепции — от углов до целых объектов .
За эти исследования ученые впоследствии получили Нобелевскую премию по медицине . Ли подчеркивает, что именно эта иерархичность вдохновила создание многослойных искусственных нейронных сетей.
📉 История компьютерного зрения: от оптимизма к «зиме» 11:13
Первая PhD-диссертация по компьютерному зрению была написана Ларри Робертсом в 1963 году и посвящена распознаванию геометрических форм . Ли вспоминает курьезный случай из 1966 года, когда профессор MIT организовал летний проект для студентов с целью «решить проблему зрения за лето» . По ее словам, история ИИ полна избыточного оптимизма относительно сроков реализации сложных задач .
В 1970-х Дэвид Марр предложил системный подход к зрению, разделив процесс на этапы:
- Primal Sketch: Выделение краев и границ .
- 2.5D Sketch: Понимание глубины и разделение планов (фигура/фон) .
- 3D Representation: Полная объемная модель мира — «святой Грааль» зрения .
Математически зрение является «некорректно поставленной задачей» (ill-posed problem), так как нам нужно восстановить 3D-мир из 2D-проекций на сетчатке . Природа решила это через бинокулярное зрение и триангуляцию, но, как считает Ли, человеческое зрение не обладает геометрической точностью — оно прагматично .
❄️ Эпоха «зимы ИИ» и скрытый прогресс 19:17
В период «зимы ИИ» (конец XX века), когда финансирование сократилось из-за нереализованных обещаний экспертных систем, исследования продолжались в области когнитивистики. Психологи обнаружили феноменальную скорость человеческого зрения.
Эксперименты Саймона Торпа (1970-е) показали:
- Человеку достаточно 100 миллисекунд, чтобы заметить объект в кадре .
- Через 150 миллисекунд после появления фото мозг уже генерирует дифференциальный сигнал классификации (например, животное или нет) .
- Это поразительно, учитывая, что биологические нейроны («wetware») работают значительно медленнее транзисторов .
В 1990-х появились алгоритмы SIFT и первые системы распознавания лиц. Фей-Фей Ли вспоминает, что через пять лет после публикации фундаментальной статьи по детекции лиц технология уже появилась в цифровых камерах для автофокуса .
🚀 Революция ImageNet и триумф 2012 года 30:51
Долгое время сообщество ИИ фокусировалось на архитектурах, недооценивая важность данных. Ли утверждает, что отсутствие данных было не просто неудобством, а математической проблемой: модели высокой емкости переобучались без огромных обучающих выборок .
Для решения этой проблемы лаборатория Ли создала ImageNet:
- Масштаб: 15 миллионов изображений, очищенных из миллиарда исходных .
- Иерархия: 22 000 категорий объектов, что соответствует объему понятий, которые ребенок осваивает в первые годы жизни .
- Конкурс ILSVRC: Курируемая выборка из 1 миллиона фото и 1000 классов для международного соревнования .
В 2012 году произошел перелом. Алгоритм AlexNet (Джеффри Хинтон и его студенты) сократил ошибку распознавания почти вдвое, использовав сверточную нейросеть (CNN) . Ли подчеркивает, что архитектурно AlexNet была похожа на Neocognitron Фукусимы 32-летней давности, но успех обеспечили два фактора: математически строгий метод обратного распространения ошибки (backpropagation) и колоссальный объем данных ImageNet .
🌡️ «Глобальное потепление ИИ» и современные вызовы 40:43
Фей-Фей Ли вводит термин «период глобального потепления ИИ», описывая текущий взрыв технологий . Движущими силами стали конвергенция вычислений (рост G-flops видеокарт NVIDIA), алгоритмов и данных .
Однако профессор предупреждает о рисках:
- Человеческие предвзятости: Данные — это артефакты человеческой деятельности, они несут в себе наши предубеждения, которые наследуют алгоритмы распознавания лиц .
- Социальные последствия: Алгоритмы могут принимать решения о найме на работу или выдаче кредитов, что требует участия юристов и социологов, а не только инженеров .
- Превосходство человека: Несмотря на успехи, ИИ пока не обладает детским любопытством, чувством юмора и эмоциональной глубиной восприятия .
📚 Структура курса CS231N (2025) 44:50
Эхсан Адели представил обновленную программу курса, которая теперь включает самые актуальные темы индустрии. Обучение разделено на четыре блока:
- Основы (Basics): Линейная классификация, регуляризация и оптимизация — «болты и гайки» глубокого обучения .
- Задачи зрения (Computer Vision Tasks):
- Архитектуры и масштабирование: От CNN до трансформеров и методов распределенного обучения на огромных кластерах .
- Генеративный интеллект: Диффузионные модели, Style Transfer и мультимодальные системы (связь текста и видео) .
Адели отметил, что в рамках третьего домашнего задания студенты будут реализовывать генеративную модель для создания эмодзи из текстовых описаний . Завершится курс изучением «воплощенного ИИ» (embodied AI) — роботов, которые должны не только видеть, но и планировать действия в физическом мире .