От пикселей к смыслам: как сверточные нейросети и HuggingFace изменили компьютерное зрение

MIT OpenCourseWare 20,6 тыс. 1 ч 16 мин 3 мин 07.01.2026
Главное

Эта лекционная сессия курса MIT OpenCourseWare посвящена переходу от простых нейронных сетей к продвинутым методам компьютерного зрения. Профессор Рама Рамакришнан (Rama Ramakrishnan) объясняет устройство сверточных нейронных сетей (CNN), принципы работы фильтров и пулинга, а также демонстрирует мощь трансферного обучения (Transfer Learning) на примере классификации объектов всего по 100 изображениям.

🖼️ Проблема «плоских» данных: почему обычные сети плохо видят 1:26

Традиционные полносвязные нейронные сети воспринимают изображение как простой вектор чисел. По словам Рамакришнана, при таком подходе теряется критически важная информация:

🔍 Анатомия свертки: фильтры как детекторы черт 7:11

Сверточный слой состоит из фильтров — небольших квадратных матриц с числами. Спикер подчеркивает, что выбор чисел в фильтре определяет его специализацию:

  1. Детекция признаков: Одни фильтры реагируют на горизонтальные линии, другие — на вертикальные или изгибы .
  2. Операция свертки: Фильтр накладывается на изображение, соответствующие числа перемножаются и суммируются. После прохождения через функцию ReLU результат записывается в новую таблицу (тензор) .
  3. Обработка цвета: Для цветных RGB-изображений фильтры становятся трехмерными («кубическими»), имея глубину, равную количеству каналов .

Исторически фильтры создавались вручную экспертами по компьютерному зрению. Прорывом 2012 года (AlexNet) стало осознание, что числа в фильтрах — это просто веса, которые нейросеть может выучить сама через обратное распространение ошибки .

📉 Пулинг и иерархия признаков 30:56

Слои пулинга (pooling) служат для уменьшения размерности (Down-sampling).

🧠 Трансферное обучение: классификация на малых данных 1:00:23

Главная проблема глубокого обучения — «голод» до данных. Чтобы классифицировать сумки и обувь, имея всего по 100 примеров (всего 200 фото), обычная CNN покажет точность около 87%, быстро переобучаясь .

Решением становится Transfer Learning (Трансферное обучение):

  1. Использование предобученных моделей: Берётся сеть (например, ResNet), уже обученная на миллионах изображений датасета ImageNet .
  2. «Хирургическое» вмешательство: От предобученной сети отрезается последний слой (Headless model), который отвечал за классификацию 1000 категорий ImageNet .
  3. Адаптация: Вместо отрезанного слоя добавляется новый классификатор под конкретную задачу (сумка или обувь). Остальные веса сети уже «умеют» распознавать формы и текстуры реального мира.

Как утверждает Рамакришнан, использование предобученной ResNet позволяет достичь 100% точности на тестовом наборе даже при мизерном количестве данных .

🛠️ Инструментарий и HuggingFace 1:10:22

Профессор отмечает взрывной рост доступности готовых моделей. Если в прошлом году на платформе HuggingFace было около 50 000 моделей, то к моменту лекции их число превысило 500 000 .

Ключевые команды и параметры в Keras:

В финале занятия Рама Рамакришнан провел живой демо-тест: модель успешно распознала кроссовок студента и рюкзак (классифицировав его как handbag) через веб-камеру в реальном времени .

💬 Цитаты

«Фильтр — это специалист. Один специализируется на вертикальных линиях, другой на кругах. Вы позволяете системе самой решить, кем быть.»

Рама Рамакришнан 17:49

«Трансферное обучение — это идея: возьмите сеть, созданную кем-то другим, и адаптируйте её, вместо того чтобы строить с нуля.»

Рама Рамакришнан 1:01:27
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Тензор
Многомерный массив чисел, стандартный формат данных для нейронных сетей.
ReLU
Функция активации, которая обнуляет отрицательные значения, помогая сети обучаться.
Аугментация данных
Метод увеличения датасета путем модификации имеющихся фото (повороты, отражения, зум).
📊 Цифры
🗓 Хронология
  1. 2012 Выход AlexNet и победа в конкурсе ImageNet, ознаменовавшая эпоху глубокого обучения.
  2. 2023 Количество моделей на HuggingFace составляло около 50 тысяч.
  3. 2024 Количество моделей на HuggingFace превысило полмиллиона.
⚖️ Другая сторона
Искусственный интеллект CNN Transfer Learning ResNet HuggingFace MIT OpenCourseWare