Stanford CS231N: как современные нейросети видят, сегментируют и понимают изображения

Stanford Online 22,5 тыс. 1 ч 13 мин 4 мин 02.09.2025
Главное

В девятой лекции курса Стэндфордского университета CS231N (весна 2025 года) подробно разбираются фундаментальные задачи компьютерного зрения: детекция объектов, сегментация изображений и методы визуализации нейросетей. Преподаватель Стэндфорда анализирует эволюцию алгоритмов — от классических сверточных сетей (CNN) до современных визуальных трансформеров (ViT) и детекторов на их основе, таких как DETR.

🤖 Визуальные трансформеры: от патчей к экспертным слоям 0:05

Лекция начинается с обзора перехода от рекуррентных нейронных сетей (RNN) к трансформерам. Основное преимущество последних — механизм самовнимания (self-attention), который, хотя и является более вычислительно затратным и требовательным к памяти, обеспечивает значительно лучшее качество моделирования последовательностей .

В контексте обработки изображений архитектура Vision Transformer (ViT) работает следующим образом:

Лектор выделяет несколько современных оптимизаций, которые делают обучение трансформеров более стабильным и эффективным:

  1. Pre-norm (Layer Norm внутри остаточных связей): Нормализация слоя переносится перед блоками внимания и MLP, что позволяет лучше сохранять идентичность функций при глубоком обучении .
  2. RMSNorm (Root Mean Square Normalization): Более простой и эмпирически более стабильный метод нормализации по сравнению со стандартным LayerNorm .
  3. SwiGLU MLP: Замена стандартного полносвязного слоя на версию с «воротами» (gated nonlinearity), что добавляет нелинейности без существенного увеличения количества параметров .
  4. Mixture of Experts (MoE): Использование нескольких параллельных MLP-слоев («экспертов») и маршрутизатора (router), который направляет токены только к активным экспертам. Это позволяет наращивать количество параметров модели без пропорционального роста вычислительной нагрузки .

🧩 Семантическая сегментация: классификация каждого пикселя 17:37

Задача семантической сегментации заключается в присвоении метки класса каждому отдельному пикселю изображения . Лектор отмечает, что классификация отдельного пикселя невозможна без контекста, поэтому нейросети анализируют окружающие области (патчи).

Для эффективного решения этой задачи используются полностью сверточные нейронные сети (FCN). Основная сложность здесь заключается в размере изображений: прямая обработка в высоком разрешении требует огромных вычислительных мощностей . Решением стал подход с уменьшением размерности (downsampling) и последующим восстановлением (upsampling).

Методы апсемплинга (увеличения разрешения):

Особое внимание лектор уделяет архитектуре U-Net, которая до сих пор считается передовым решением в медицинских приложениях. Её ключевая особенность — «пропускные связи» (skip connections), которые копируют карты признаков из энкодера напрямую в декодер, помогая сохранять четкость границ объектов .

🔍 Детекция объектов: от R-CNN до YOLO 33:07

Детекция объектов сложнее классификации, так как требует не только определить категорию, но и найти координаты рамки (bounding box) . Лектор подчеркивает, что современные инструменты позволяют решать эту задачу «одной строкой кода», но понимание внутренней логики необходимо для разработки специализированных моделей .

Эволюция методов детекции:

🏗️ DETR: трансформеры в детекции объектов 49:05

Алгоритм DETR (Detection Transformer), представленный в 2020 году, применил архитектуру трансформеров к задаче обнаружения объектов. Вместо сложных эвристик с регионами и сетками здесь используются «запросы к объектам» (object queries) .

По словам лектора, эти запросы являются обучаемыми параметрами. Сеть получает на вход, например, 20 запросов и через механизмы внимания выдает координаты и классы для 20 потенциальных объектов в кадре . Если объектов меньше, лишние запросы получают метку «no object». Эта модель избавила разработчиков от необходимости вручную настраивать постобработку, такую как подавление не-максимумов (NMS) .

👁️ Визуализация и интерпретация: как «думает» сеть 1:01:40

Понимание того, почему нейросеть приняла то или иное решение, критически важно в таких областях, как медицина . Лектор разбирает несколько методов «заглянуть под капот»:

В завершение лектор отмечает, что трансформеры (ViT) визуализировать гораздо проще, чем сверточные сети, так как они изначально содержат матрицы весов внимания, которые можно напрямую наложить на изображение .

💬 Цитаты

«Никто больше не заботится об обнаружении объектов, потому что теперь мы можем сделать это одной строкой кода.»

Лектор Stanford Online 16:22

«В медицинских приложениях визуализация и понимание часто важнее, чем сама классификация или обнаружение опухоли.»

Лектор Stanford Online 16:49
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Vision Transformer (ViT)
Архитектура нейросети, применяющая механизмы внимания из обработки текста к изображениям, разбитым на патчи.
Mixture of Experts (MoE)
Слой нейросети, состоящий из множества специализированных под-сетей, из которых для каждого токена выбираются лишь некоторые.
Object Queries
Обучаемые векторы в трансформере DETR, которые «запрашивают» информацию о наличии объектов в определенных частях сцены.
Saliency Maps
Визуализация, показывающая, какие пиксели изображения вносят наибольший вклад в итоговое решение нейросети.
📊 Цифры
🗓 Хронология
  1. 2014 Период активного использования и публикации первых алгоритмов семейства R-CNN.
  2. 2020 Выход статьи про алгоритм DETR, изменивший подход к детекции через трансформеры.
  3. Весна 2025 Проведение текущей лекции курса CS231N в Стэнфорде.
⚖️ Другая сторона
Образование Stanford Online Vision Transformer YOLO U-Net Object Detection