Ишан Мисра о будущем AI: «Здравый смысл — это темная материя»

Самообучающееся компьютерное зрение: почему «темная материя» данных — ключ к интеллекту 0:00

В современном машинном обучении доминирует подход, основанный на использовании огромных массивов размеченных человеком данных. Однако исследователь в области компьютерного зрения Ишан Мисра (Ishan Misра) утверждает, что этот путь ведет в тупик. По мнению Мисры, самообучающееся (self-supervised) обучение позволяет машинам самостоятельно выявлять структуру данных, избегая дорогостоящей и часто предвзятой ручной разметки. Этот подход постепенно закрывает разрыв между качеством представлений (representation learning) в задачах компьютерного зрения и в области обработки естественного языка (NLP).

🧠 Почему классическое обучение «жульничает» 6:30

Классическое контролируемое обучение (supervised learning) гость сравнивает с «жульничеством на экзамене», где модель заранее знает, какие вопросы будут заданы.

Модели оптимизируются под узкую метрику, что, согласно «теореме о бесплатных завтраках» (no free lunch theorem), неизбежно ведет к снижению способности к генерализации.
Ручная разметка (например, рисование ограничивающих рамок — bounding boxes) является искусственным конструктом: природа редко создает прямоугольные объекты, выровненные по осям.
Человеческая разметка крайне субъективна: люди не могут прийти к консенсусу относительно того, с какой гранулярностью нужно описывать объекты, что делает разметку фундаментально ограниченным инструментом.

Самообучающееся обучение предлагает альтернативу: машина сама создает обучающие сигналы из структуры самих данных, предсказывая скрытые или будущие отношения.

🛠 Секретный ингредиент: аугментация данных 7:19

На текущем этапе развития дисциплины аугментация данных — это не просто хак для борьбы с переобучением, а ключевой обучающий сигнал.

Агрессивные искажения (например, цвета) необходимы, чтобы модель не «срезала углы», переобучаясь на цветовых гистограммах вместо изучения семантики объекта.
Ишан Мисра считает, что текущие модели — «домоседы», которым требуются искусственные аугментации, чтобы имитировать изменение освещения или ракурса.
В идеальном будущем агенты должны будут активно перемещаться по миру, получая естественные аугментации (изменения освещения, перспективы) бесплатно в ходе взаимодействия со средой.

🚀 Прорывные архитектуры: DINO, Barlow Twins и PAWS 12:31

В последние годы команда Facebook AI Research представила несколько фундаментальных работ в области самообучающегося обучения.

DINO (Self-distillation without labels): система, не требующая контрастивного обучения. Она обнаружила, что Vision Transformer (ViT) самостоятельно «выделяет» границы объектов в слоях self-attention без какой-либо разметки.
PAWS (Semi-supervised learning): подход, обеспечивающий высокую точность при использовании всего 1% размеченных данных от ImageNet и выполнении в 10 раз меньшего количества шагов обучения.
Barlow Twins: метод, минимизирующий избыточность между представлениями (путем приведения матрицы кросс-корреляции к единичной), что позволяет работать с меньшими размерами батчей и без асимметричных обновлений.

🌌 «Темная материя» интеллекта 15:49

Совместно с Яном Лекуном (Yann LeCun), Ишан Мисра развивает гипотезу о том, что здравый смысл (common sense) — это «темная материя» интеллекта.

В отличие от языка, где существует ограниченный набор токенов (~50 000), мир зрения имеет бесконечную размерность.
В текущих моделях не хватает количественной оценки неопределенности, свойственной человеку.
Решением могут стать латентные прогностические модели (latent predictive models), где латентная переменная берет на себя роль стохастического ввода, позволяя детерминированной модели предсказывать несколько возможных вариантов будущего.

Однако гость признает: текущие модели — лишь «первые шаги». Они учат семантику сходства (эти два изображения похожи), но до понимания глубоких абстракций, которыми оперирует человеческое мышление, предстоит пройти долгий путь, возможно, длиною в десятилетия.