# Самообучение нейросетей: как ИИ понимает мир без разметки данных

Источник: https://www.youtube.com/watch?v=4howBU7THbM
Канал: Stanford Online
Опубликовано: 02.09.2025

---

## Революция самообучения: как ИИ учится без меток 🚀
[[JUMP:04:39]]

Традиционное обучение нейронных сетей требует колоссальных объемов данных, размеченных человеком вручную, что становится «узким горлышком» для масштабируемых систем. Лекция Стэнфордского университета посвящена парадигме **Self-Supervised Learning (SSL)** — методу, который позволяет нейросетям извлекать полезные признаки из неразмеченных данных, используя их внутреннюю структуру в качестве «учителя». Вместо того чтобы полагаться на человека, алгоритм определяет так называемую **pretext-задачу** (вспомогательную задачу), решение которой заставляет модель выучить репрезентации, применимые в дальнейшем для реальных бизнес-задач.

### 🧩 Искусство pretext-задач: учимся на «обрывках»
[[JUMP:08:31]]

Суть SSL заключается в том, чтобы заставить модель решать задачу, где ответ (метка) уже содержится в самих данных. Лектор выделяет несколько классических подходов:

*   **Восстановление частей (Inpainting):** Часть изображения маскируется, и модель должна предсказать недостающие пиксели.
*   **Предсказание поворота:** Изображение поворачивается на 0°, 90°, 180° или 270°, и модель классифицирует угол поворота. Для этого нейросети приходится осваивать «здравый смысл» в восприятии объектов.
*   **Jigsaw-пазлы:** Изображение разбивается на сетку 3x3, перемешивается, и модель восстанавливает исходный порядок.
*   **Раскрашивание (Colorization):** На вход подается только канал яркости (L), а модель предсказывает цветовые каналы (A и B) в пространстве Lab.

По мнению лектора, успех этих методов доказал эффективность SSL в задачах классификации, детекции и сегментации, даже если начальные этапы обучения не включают человеческую разметку.

### 🛡️ Масштабируемость: Masked Autoencoders (MAE)
[[JUMP:45:56]]

Современным стандартом предобучения на сырых данных стали **Masked Autoencoders (MAE)**. Это развитие идеи inpainting, доведенное до масштабов всей архитектуры трансформеров (ViT).

*   **Агрессивная маскировка:** Метод подразумевает случайное скрытие от 50% до 75% патчей изображения.
*   **Эффективность энкодера:** Энкодер видит только 25% видимых патчей, что резко снижает вычислительные затраты.
*   **Обучение:** Декодер восстанавливает полное изображение из представлений энкодера и специальных «маск-токенов». По словам лектора, высокая доля маскировки делает задачу сложной, что критически важно для получения качественных признаков.

MAE демонстрируют превосходные результаты в задачах fine-tuning (полная донастройка) и линейного пробинга, что делает их одними из самых мощных инструментов в арсенале современного ИИ.

### 🤝 Контрастивное обучение: притягивай и отталкивай
[[JUMP:59:37]]

Вторая большая категория SSL — **контрастивное обучение (Contrastive Learning)**. Идея проста: объекты, принадлежащие одной сущности (или вариации одного изображения), должны быть близки в латентном пространстве, а все остальные — максимально удалены друг от друга.

*   **Функция потерь:** Используется InfoNCE (Information Noise Contrastive Estimation), которая, по сути, является оценкой взаимной информации.
*   **SimCLR:** Метод, использующий огромные батчи, где положительными парами являются две аугментации одного изображения, а отрицательными — все остальные образцы в батче.
*   **MoCo (Momentum Contrast):** Решает проблему нехватки памяти для огромных батчей, поддерживая очередь (queue) негативных примеров из истории прошлых итераций и обновляя параметры через momentum-энкодер.

Контрастивные методы позволили достичь точности, сопоставимой с полностью размеченным обучением (supervised learning), что подтверждает универсальность выученных признаков.