Как победить ручную разметку данных: эволюция Self-Supervised Learning

В современной индустрии искусственного интеллекта обучение глубоких моделей традиционно упирается в «бутылочное горлышко» ручной разметки данных. В рамках лекции престижного курса Stanford CS231N подробно разбирается революционный сдвиг парадигмы в компьютерном зрении — переход к самообучению (Self-Supervised Learning). Эта технология позволяет нейросетям самостоятельно извлекать высокоуровневые смысловые признаки из терабайтов сырых изображений и видео без привлечения разметчиков-людей, закладывая фундамент для современных мультимодальных систем.

🧠 Парадигма Self-Supervised Learning: отказ от ручной разметки 4:39

В классическом компьютерном зрении масштабное обучение сетей сопряжено с колоссальными затратами. Если для классификации изображений требуется назначить категорию всей картинке, то для задач семантической сегментации человеку приходится вручную размечать каждый пиксель. Чтобы преодолеть этот барьер, исследователи разработали концепцию самообучения (Self-Supervised Learning), которая позволяет тренировать нейросети на неразмеченных наборах данных, скачанных напрямую из интернета.

Суть подхода заключается в разделении процесса обучения на два ключевых этапа:

Pretext task (вспомогательная задача): искусственно сконструированная задача на сырых данных, для которой метки генерируются автоматически на основе самой структуры информации.
Downstream task (целевая задача): реальное прикладное приложение (например, медицинская диагностика или детекция объектов на производстве), где доступно лишь небольшое количество размеченных экспертами примеров.

По гипотезе создателей метода, решая сложную вспомогательную задачу, сеть-энкодер вынуждена глубоко анализировать геометрию и семантику сцены. Накопленные ею абстрактные представления (эмбеддинги) затем переносятся в целевую задачу. Для ее решения поверх замороженного или частично дообучаемого энкодера надстраивается простой линейный классификатор, требующий минимального объема обучающих данных.

🔄 Ранние прорывные задачи: вращение, пазлы и раскрашивание картинок 15:32

На заре развития самообучения исследователи искали интуитивные способы трансформации изображений, заставляющие модель проявлять то, что лекторы называют «визуальным здравым смыслом» (visual common sense). Одним из первых успешных экспериментов стала задача предсказания угла поворота. В работе 2018 года авторы брали исходную картинку и поворачивали ее на один из четырех фиксированных углов: 0°, 90°, 180° или 270°. Задача нейросети сводилась к 4-классовой классификации — определению того, какое именно преобразование было совершено. Модель способна безошибочно понять, что объект перевернут, только в том случае, если она уже понимает внутреннюю логику строения этого объекта в реальном мире.

Другой классической архитектурой стали так называемые контекстные пазлы. Исходное изображение разбивалось на сетку $3 \times 3$, из которой выбирался центральный и один из периферийных патчей. Нейросеть должна была определить позицию случайного фрагмента относительно центра, что фактически являлось 8-классовой классификацией.

В последующей работе 2016 года задачу усложнили: все 9 фрагментов сетки полностью перемешивались. Поскольку число возможных перестановок огромно ($9! = 362\,880$), авторы сформировали фиксированную таблицу из 64 наиболее различимых комбинаций, превратив решение головоломки в стандартную задачу классификации с 64 выходами.

Параллельно развивались подходы, основанные на восстановлении пропущенных фрагментов и колоризации:

Inpainting (заполнение пустот): случайная область изображения маскировалась, а автокодировщик с функцией потерь MSE восстанавливал недостающие пиксели. Позже для повышения четкости генерируемых текстур этот метод был усилен состязательной ( adversarial) функцией потерь.
Колоризация (Image Colorization): цветное изображение переводилось из пространства RGB в пространство LAB, где канал L отвечает за яркость, а каналы A и B — за цвет. Модели подавался на вход черно-белый канал L, а на выходе она должна была реконструировать каналы A и B.
Split-Brain Autoencoders: изображение разделялось на изолированные каналы, где первая подсеть предсказывала цвет по яркости, а вторая — яркость по цвету. В робототехнике данный подход адаптировали для RGB-D сенсоров: по фотографии модель училась предсказывать карту глубины, и наоборот.

🎥 Обучение на видео: от цвета к скрытому трекингу объектов 37:13

Логичным развитием пространственной колоризации стал перенос концепции на видеопотоки. Исследователи выдвинули гипотезу: если заставить нейросеть раскрашивать последующие кадры видео на основе первого (опорного) цветного кадра, она будет вынуждена неявно научиться отслеживать перемещение объектов и их границ во времени без использования ручной разметки траекторий.

Технически этот процесс устроен через механизм межкадрового внимания (attention), математически эквивалентный оценке сходства признаков. Сначала сверточная нейросеть извлекает пространственные признаки для каждого пикселя опорного и целевого кадров. Затем для каждого пикселя в целевом кадре вычисляется матрица схожести со всеми пикселями опорного кадра. Цвет целевой точки формируется как средневзвешенное значение цветов из опорного кадра, где весами выступают коэффициенты внимания.

Поскольку у разработчиков изначально есть истинные цветные видеозаписи, ошибка вычисляется автоматически и распространяется по сети методом обратного распространения. Как демонстрируют эксперименты, обученная таким образом модель сохраняет строгую временную консистентность: например, отражение моста или деревьев в движущейся воде окрашивается в точные цвета оригинала. В качестве побочного, но критически важного эффекта, карты внимания этой сети позволяют с высокой точностью трекать сегменты объектов и ключевые точки движущихся людей.

🎭 Маскированные автокодировщики (MAE): агрессивное скрытие патчей 45:56

В 2021 году произошел фундаментальный прорыв с появлением архитектуры маскированных автокодировщиков (Masked Autoencoders, MAE), предложенной Каймином Хе и его коллегами. MAE переносит триумфальную механику BERT из сферы обработки естественного языка в компьютерное зрение, используя в качестве основы архитектуру Vision Transformer (ViT).

Главное концептуальное отличие MAE от ранних подходов Inpainting заключается в беспрецедентно агрессивной стратегии маскирования: из изображения случайным образом удаляется от 50% до 75% всех пространственных патчей. Столь высокий коэффициент разрушения структуры делает задачу реконструкции экстремально сложной, заставляя трансформер выходить за рамки простого размытия краев и реконструировать целостную структуру объектов на основе редких изолированных фрагментов.

Процесс обработки в MAE строго асимметричен:

Энкодер: принимает на вход только оставшиеся 25% видимых патчей. К ним добавляются позиционные эмбеддинги, после чего они проходят через стандартные трансформерные блоки. Поскольку энкодер обрабатывает лишь малую часть изображения, разработчики могут использовать очень глубокие и тяжелые нейросети без лавинообразного роста вычислительных затрат.
Декодер: восстанавливает полную геометрию сцены. На входе он объединяет тяжелые эмбеддинги видимых патчей от энкодера со специальными обучаемыми масками-токенами (shared mask tokens), которые подставляются на места удаленных фрагментов. Декодер является более легким и компактным трансформером, работающим со всей последовательностью патчей.

Модель обучается по стандартной функции потерь MSE, которая рассчитывается исключительно для пикселей, находившихся внутри замаскированных областей. При тестировании на downstream-задачах декодер полностью отбрасывается. Для оценки качества полученного энкодера применяют два подхода: линейный пробинг (linear probing), когда веса энкодера намертво замораживаются и обучается лишь финальный слой, и полное дообучение (full fine-tuning), раскрывающее максимальный потенциал нейросети. Эксперименты подтвердили, что случайное маскирование блоков существенно превосходит сетчатые или регулярные маски, выводя MAE в лидеры среди систем глубокого претрейнинга.

⚖️ Контрастивное обучение: притяжение и отталкивание в латентном пространстве 58:42

Параллельно с реконструктивными методами развивалось контрастивное обучение (Contrastive Learning). Если задачи трансформации изображений учат сеть восстанавливать локальные пиксели, то контрастивный подход работает на уровне макро-представлений всего изображения. Его фундаментальный принцип — сблизить в латентном пространстве представления схожих объектов и максимально отдалить друг от друга репрезентации принципиально разных сущностей.

Для реализации этой логики математически формулируется концепция позитивных и негативных пар. Берется исходный референсный кадр $X$. К нему применяются две случайные аугментации (например, обрезка и изменение цветового тона), формируя позитивную пару $X$ и $X^+$. Все остальные изображения внутри текущего мини-батча провозглашаются негативными примерами $X^-$. Задача сети — максимизировать скоринговую функцию сходства для позитивной пары и минимизировать её для негативных пар.

Математическим фундаментом контрастивного подхода выступает функция потерь InfoNCE (Information Noise Contrastive Estimation):

$$\mathcal{L}{\text{InfoNCE}} = -\log \frac{\exp(s(X, X^+) / \tau)}{\exp(s(X, X^+) / \tau) + \sum{i} \exp(s(X, X_i^-) / \tau)}$$

По своей структуре эта формула идентична многоклассовой кросс-энтропии (softmax), где позитивная пара выступает в роли «истинного класса», который необходимо выделить на фоне шума из сотен негативных примеров. В оригинальном исследовании доказано, что минимизация функции потерь InfoNCE математически эквивалентна максимизации нижней границы взаимной информации (Mutual Information) между аугментированными версиями одного объекта. Взаимная информация определяет объем общих скрытых признаков. Важная теоретическая деталь: чем больше объем негативных примеров в знаменателе, тем более строгой и точной становится эта математическая граница, что напрямую диктует требования к инженерной реализации систем.

🚀 Эволюция алгоритмов: SimCLR, MoCo и эпоха больших батчей 1:06:06

Практическая реализация контрастивного обучения породила гонку алгоритмов на стыке 2018–2021 годов. Главной вехой стал фреймворк SimCLR от Google. Он берет батч из $N$ изображений, применяет к каждому по две аугментации, получая на входе $2N$ примеров. Для первого изображения его трансформированная копия является единственным позитивным таргетом, а оставшиеся $2N-2$ вариантов — негативным фоном.

В SimCLR были внедрены два важнейших инженерных решения:

Нелинейная проекционная голова (Projection Head): эмбеддинги из энкодера $H$ перед расчетом InfoNCE пропускаются через дополнительный скрытый слой для получения проекций $Z$. Исследователи резонно предположили, что оптимизация контрастивной потери может безвозвратно уничтожать часть полезной информации об исходном объекте (например, его точный цвет или текстуру) ради решения абстрактной задачи сопоставления. Проекционная голова берет этот «удар» на себя, позволяя вектору $H$ сохранять максимально общие, неискаженные признаки для downstream-задач.
Гигантские размеры батчей: из-за математических свойств InfoNCE для достижения высокой точности SimCLR требует колоссальных батчей — до нескольких тысяч изображений одновременно, что упирается в ограничения памяти GPU.

Чтобы обойти аппаратный тупик огромных батчей, Facebook AI Research представил алгоритм MoCo (Momentum Contrast). Вместо раздувания текущего батча MoCo хранит динамическую очередь (queue) из эмбеддингов негативных примеров, полученных на предыдущих итерациях обучения. Это позволяет оперировать миллионами негативных примеров без задействования колоссального объема оперативной памяти видеокарт.

Однако старые эмбеддинги из очереди создавались прошлыми версиями энкодера, чьи веса непрерывно обновлялись, что порождало критическую нестабильность градиентов. Для решения этой проблемы авторы разделили архитектуру на два независимых компонента: query-энкодер, обновляемый стандартным градиентным спуском, и key-энкодер для генерации ключей в очередь. Веса key-энкодера обновляются не градиентами, а через экспоненциальное скользящее среднее (momentum update) от весов query-энкодера.

Дальнейшая гибридизация идей (внедрение проекционных голов SimCLR в архитектуру MoCo v2) позволила вплотную приблизить точность самообученных моделей к результатам fully supervised сетей, обучавшихся на полностью размеченном датасете ImageNet. Завершая лекцию, спикер отметил фреймворк DINO, который развивает эту мысль через дистилляцию знаний в связке сетей «студент-учитель», знаменуя собой современный этап развития больших vision-моделей.