Самообучающееся компьютерное зрение: почему «темная материя» данных — ключ к интеллекту 0:00
В современном машинном обучении доминирует подход, основанный на использовании огромных массивов размеченных человеком данных. Однако исследователь в области компьютерного зрения Ишан Мисра (Ishan Misра) утверждает, что этот путь ведет в тупик. По мнению Мисры, самообучающееся (self-supervised) обучение позволяет машинам самостоятельно выявлять структуру данных, избегая дорогостоящей и часто предвзятой ручной разметки. Этот подход постепенно закрывает разрыв между качеством представлений (representation learning) в задачах компьютерного зрения и в области обработки естественного языка (NLP).
🧠 Почему классическое обучение «жульничает» 6:30
Классическое контролируемое обучение (supervised learning) гость сравнивает с «жульничеством на экзамене», где модель заранее знает, какие вопросы будут заданы.
- Модели оптимизируются под узкую метрику, что, согласно «теореме о бесплатных завтраках» (no free lunch theorem), неизбежно ведет к снижению способности к генерализации.
- Ручная разметка (например, рисование ограничивающих рамок — bounding boxes) является искусственным конструктом: природа редко создает прямоугольные объекты, выровненные по осям.
- Человеческая разметка крайне субъективна: люди не могут прийти к консенсусу относительно того, с какой гранулярностью нужно описывать объекты, что делает разметку фундаментально ограниченным инструментом.
Самообучающееся обучение предлагает альтернативу: машина сама создает обучающие сигналы из структуры самих данных, предсказывая скрытые или будущие отношения.
🛠 Секретный ингредиент: аугментация данных 7:19
На текущем этапе развития дисциплины аугментация данных — это не просто хак для борьбы с переобучением, а ключевой обучающий сигнал.
- Агрессивные искажения (например, цвета) необходимы, чтобы модель не «срезала углы», переобучаясь на цветовых гистограммах вместо изучения семантики объекта.
- Ишан Мисра считает, что текущие модели — «домоседы», которым требуются искусственные аугментации, чтобы имитировать изменение освещения или ракурса.
- В идеальном будущем агенты должны будут активно перемещаться по миру, получая естественные аугментации (изменения освещения, перспективы) бесплатно в ходе взаимодействия со средой.
🚀 Прорывные архитектуры: DINO, Barlow Twins и PAWS 12:31
В последние годы команда Facebook AI Research представила несколько фундаментальных работ в области самообучающегося обучения.
- DINO (Self-distillation without labels): система, не требующая контрастивного обучения. Она обнаружила, что Vision Transformer (ViT) самостоятельно «выделяет» границы объектов в слоях self-attention без какой-либо разметки.
- PAWS (Semi-supervised learning): подход, обеспечивающий высокую точность при использовании всего 1% размеченных данных от ImageNet и выполнении в 10 раз меньшего количества шагов обучения.
- Barlow Twins: метод, минимизирующий избыточность между представлениями (путем приведения матрицы кросс-корреляции к единичной), что позволяет работать с меньшими размерами батчей и без асимметричных обновлений.
🌌 «Темная материя» интеллекта 15:49
Совместно с Яном Лекуном (Yann LeCun), Ишан Мисра развивает гипотезу о том, что здравый смысл (common sense) — это «темная материя» интеллекта.
- В отличие от языка, где существует ограниченный набор токенов (~50 000), мир зрения имеет бесконечную размерность.
- В текущих моделях не хватает количественной оценки неопределенности, свойственной человеку.
- Решением могут стать латентные прогностические модели (latent predictive models), где латентная переменная берет на себя роль стохастического ввода, позволяя детерминированной модели предсказывать несколько возможных вариантов будущего.
Однако гость признает: текущие модели — лишь «первые шаги». Они учат семантику сходства (эти два изображения похожи), но до понимания глубоких абстракций, которыми оперирует человеческое мышление, предстоит пройти долгий путь, возможно, длиною в десятилетия.