GLOM: Новый теоретический подход Джеффа Хинтона к машинному зрению

Yannic Kilcher 45,9 тыс. 1 ч 3 мин 3 мин 27.02.2021
Главное

GLOM: Новый взгляд Джеффа Хинтона на иерархическое представление визуальной информации 0:01

В своей теоретической работе, описывающей архитектуру GLOM, легендарный исследователь нейронных сетей Джефф Хинтон предлагает концептуальный подход к пониманию визуальных данных. По собственному признанию Хинтона, GLOM не является готовой рабочей системой, а представляет собой «идею-бумагу» — приглашение к дискуссии и экспериментам для всего научного сообщества. Янник Кильхер отмечает, что такой формат публикаций, где автор делится не только проверенными результатами (SOTA), но и гипотезами, крайне полезен для развития AI-индустрии, даже несмотря на то, что успех подобных инициатив во многом опирается на авторитет самого Хинтона.

Концепция парсинга изображений и наследие «капсул» 2:52

Основная цель GLOM — научить нейросеть «разбирать» (парсить) изображение на иерархию «объект — часть — деталь». Традиционные нейросети работают с непрерывными данными, однако человеческое восприятие структурирует мир в символические отношения. Хинтон стремится объединить гибкость нейронных сетей со способностью строить динамические деревья разбора, которые адаптируются под каждое конкретное изображение.

Ранее Хинтон пытался решить эту задачу с помощью Capsule Networks, где каждый «капсульный» узел отвечал за конкретную часть объекта. Однако этот подход столкнулся с двумя критическими ограничениями:

Архитектура GLOM: Колонны и острова сходства 7:52

GLOM предлагает более элегантное решение, основанное на системе «колонн». Над каждым участком изображения (локацией) располагается вертикальная колонка, разделенная на уровни абстракции.

Механизм внимания и роль parse tree 21:37

Кильхер указывает на потенциальную проблему: если просто усреднять информацию со всего слоя, нейросеть может «подтянуть» данные из нерелевантных частей дерева разбора. В качестве решения Кильхер предлагает модулировать механизм внимания в зависимости от того, насколько близко элементы находятся в иерархическом дереве разбора, а не только по схожести векторов. Сам Хинтон, по мнению Кильхера, делает ставку на то, что использование внимания само по себе заставляет сеть учиться строить правильные «острова».

Обучение, контрастность и видео 43:31

Система обучается как шумоподавляющий автокодировщик (denoising autoencoder) — она должна восстанавливать поврежденные участки изображения, используя знания об объектах. Для предотвращения схлопывания (коллапса) представлений, когда все векторы становятся одинаковыми, Хинтон предлагает использовать контрастное обучение, но с осторожностью. Например, требовать схожести эмбеддингов для двух кропов изображения имеет смысл только на верхнем уровне абстракции, так как на нижнем они могут отображать принципиально разные части объекта.

Также система естественным образом масштабируется на видео: пока колонны ищут консенсус, можно подавать разные кадры, что создает эффект ансамблирования и регуляризации. Тем не менее, Хинтон признает ограничение: при слишком быстром изменении сцены нейросеть просто не успеет итеративно «устаканить» верную интерпретацию объекта — подобно тому, как человеческий глаз не может распознать форму вращающегося в воздухе картофеля.

💬 Цитаты

«В долгосрочной перспективе мы все мертвы.»

«GLOM — это система, которая вместо презентации одного подхода объединяет достижения разных групп.»

Янник Кильхер 1:33
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
GLOM
Концептуальная система обработки визуальной информации, строящая иерархию типа «часть-целое».
Parse tree (дерево разбора)
Древовидная структура, описывающая отношения между объектом и его составными частями.
Capsule Networks
Тип нейросетей, где капсулы отвечают за распознавание объектов и их свойств.
Embeeding (эмбеддинг)
Векторное представление данных в пространстве признаков.
Denoising Autoencoder
Модель, обучающаяся восстанавливать чистый вход из зашумленного варианта.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект GLOM Geoff Hinton Yannic Kilcher Neural Networks