# Ишан Мисра о будущем AI: «Здравый смысл — это темная материя»

Источник: https://www.youtube.com/watch?v=EXJmodhu4_4
Канал: Machine Learning Street Talk
Опубликовано: 21.06.2021

---

## Самообучающееся компьютерное зрение: почему «темная материя» данных — ключ к интеллекту
[[JUMP:0:00]]

В современном машинном обучении доминирует подход, основанный на использовании огромных массивов размеченных человеком данных. Однако исследователь в области компьютерного зрения Ишан Мисра (Ishan Misра) утверждает, что этот путь ведет в тупик. По мнению Мисры, самообучающееся (self-supervised) обучение позволяет машинам самостоятельно выявлять структуру данных, избегая дорогостоящей и часто предвзятой ручной разметки. Этот подход постепенно закрывает разрыв между качеством представлений (representation learning) в задачах компьютерного зрения и в области обработки естественного языка (NLP).

### 🧠 Почему классическое обучение «жульничает»
[[JUMP:6:30]]

Классическое контролируемое обучение (supervised learning) гость сравнивает с «жульничеством на экзамене», где модель заранее знает, какие вопросы будут заданы.

* Модели оптимизируются под узкую метрику, что, согласно «теореме о бесплатных завтраках» (no free lunch theorem), неизбежно ведет к снижению способности к генерализации.
* Ручная разметка (например, рисование ограничивающих рамок — bounding boxes) является искусственным конструктом: природа редко создает прямоугольные объекты, выровненные по осям.
* Человеческая разметка крайне субъективна: люди не могут прийти к консенсусу относительно того, с какой гранулярностью нужно описывать объекты, что делает разметку фундаментально ограниченным инструментом.

Самообучающееся обучение предлагает альтернативу: машина сама создает обучающие сигналы из структуры самих данных, предсказывая скрытые или будущие отношения.

### 🛠 Секретный ингредиент: аугментация данных
[[JUMP:7:19]]

На текущем этапе развития дисциплины аугментация данных — это не просто хак для борьбы с переобучением, а ключевой обучающий сигнал.

* Агрессивные искажения (например, цвета) необходимы, чтобы модель не «срезала углы», переобучаясь на цветовых гистограммах вместо изучения семантики объекта.
* Ишан Мисра считает, что текущие модели — «домоседы», которым требуются искусственные аугментации, чтобы имитировать изменение освещения или ракурса.
* В идеальном будущем агенты должны будут активно перемещаться по миру, получая естественные аугментации (изменения освещения, перспективы) бесплатно в ходе взаимодействия со средой.

### 🚀 Прорывные архитектуры: DINO, Barlow Twins и PAWS
[[JUMP:12:31]]

В последние годы команда Facebook AI Research представила несколько фундаментальных работ в области самообучающегося обучения.

* **DINO (Self-distillation without labels):** система, не требующая контрастивного обучения. Она обнаружила, что Vision Transformer (ViT) самостоятельно «выделяет» границы объектов в слоях self-attention без какой-либо разметки.
* **PAWS (Semi-supervised learning):** подход, обеспечивающий высокую точность при использовании всего 1% размеченных данных от ImageNet и выполнении в 10 раз меньшего количества шагов обучения.
* **Barlow Twins:** метод, минимизирующий избыточность между представлениями (путем приведения матрицы кросс-корреляции к единичной), что позволяет работать с меньшими размерами батчей и без асимметричных обновлений.

### 🌌 «Темная материя» интеллекта
[[JUMP:15:49]]

Совместно с Яном Лекуном (Yann LeCun), Ишан Мисра развивает гипотезу о том, что здравый смысл (common sense) — это «темная материя» интеллекта.

* В отличие от языка, где существует ограниченный набор токенов (~50 000), мир зрения имеет бесконечную размерность.
* В текущих моделях не хватает количественной оценки неопределенности, свойственной человеку.
* Решением могут стать латентные прогностические модели (latent predictive models), где латентная переменная берет на себя роль стохастического ввода, позволяя детерминированной модели предсказывать несколько возможных вариантов будущего.

Однако гость признает: текущие модели — лишь «первые шаги». Они учат семантику сходства (эти два изображения похожи), но до понимания глубоких абстракций, которыми оперирует человеческое мышление, предстоит пройти долгий путь, возможно, длиною в десятилетия.