Самообучение нейросетей: как ИИ понимает мир без разметки данных

Революция самообучения: как ИИ учится без меток 🚀 4:39

Традиционное обучение нейронных сетей требует колоссальных объемов данных, размеченных человеком вручную, что становится «узким горлышком» для масштабируемых систем. Лекция Стэнфордского университета посвящена парадигме Self-Supervised Learning (SSL) — методу, который позволяет нейросетям извлекать полезные признаки из неразмеченных данных, используя их внутреннюю структуру в качестве «учителя». Вместо того чтобы полагаться на человека, алгоритм определяет так называемую pretext-задачу (вспомогательную задачу), решение которой заставляет модель выучить репрезентации, применимые в дальнейшем для реальных бизнес-задач.

🧩 Искусство pretext-задач: учимся на «обрывках» 8:31

Суть SSL заключается в том, чтобы заставить модель решать задачу, где ответ (метка) уже содержится в самих данных. Лектор выделяет несколько классических подходов:

Восстановление частей (Inpainting): Часть изображения маскируется, и модель должна предсказать недостающие пиксели.
Предсказание поворота: Изображение поворачивается на 0°, 90°, 180° или 270°, и модель классифицирует угол поворота. Для этого нейросети приходится осваивать «здравый смысл» в восприятии объектов.
Jigsaw-пазлы: Изображение разбивается на сетку 3x3, перемешивается, и модель восстанавливает исходный порядок.
Раскрашивание (Colorization): На вход подается только канал яркости (L), а модель предсказывает цветовые каналы (A и B) в пространстве Lab.

По мнению лектора, успех этих методов доказал эффективность SSL в задачах классификации, детекции и сегментации, даже если начальные этапы обучения не включают человеческую разметку.

🛡️ Масштабируемость: Masked Autoencoders (MAE) 45:56

Современным стандартом предобучения на сырых данных стали Masked Autoencoders (MAE). Это развитие идеи inpainting, доведенное до масштабов всей архитектуры трансформеров (ViT).

Агрессивная маскировка: Метод подразумевает случайное скрытие от 50% до 75% патчей изображения.
Эффективность энкодера: Энкодер видит только 25% видимых патчей, что резко снижает вычислительные затраты.
Обучение: Декодер восстанавливает полное изображение из представлений энкодера и специальных «маск-токенов». По словам лектора, высокая доля маскировки делает задачу сложной, что критически важно для получения качественных признаков.

MAE демонстрируют превосходные результаты в задачах fine-tuning (полная донастройка) и линейного пробинга, что делает их одними из самых мощных инструментов в арсенале современного ИИ.

🤝 Контрастивное обучение: притягивай и отталкивай 59:37

Вторая большая категория SSL — контрастивное обучение (Contrastive Learning). Идея проста: объекты, принадлежащие одной сущности (или вариации одного изображения), должны быть близки в латентном пространстве, а все остальные — максимально удалены друг от друга.

Функция потерь: Используется InfoNCE (Information Noise Contrastive Estimation), которая, по сути, является оценкой взаимной информации.
SimCLR: Метод, использующий огромные батчи, где положительными парами являются две аугментации одного изображения, а отрицательными — все остальные образцы в батче.
MoCo (Momentum Contrast): Решает проблему нехватки памяти для огромных батчей, поддерживая очередь (queue) негативных примеров из истории прошлых итераций и обновляя параметры через momentum-энкодер.

Контрастивные методы позволили достичь точности, сопоставимой с полностью размеченным обучением (supervised learning), что подтверждает универсальность выученных признаков.