GLOM: Новый теоретический подход Джеффа Хинтона к машинному зрению

GLOM: Новый взгляд Джеффа Хинтона на иерархическое представление визуальной информации 0:01

В своей теоретической работе, описывающей архитектуру GLOM, легендарный исследователь нейронных сетей Джефф Хинтон предлагает концептуальный подход к пониманию визуальных данных. По собственному признанию Хинтона, GLOM не является готовой рабочей системой, а представляет собой «идею-бумагу» — приглашение к дискуссии и экспериментам для всего научного сообщества. Янник Кильхер отмечает, что такой формат публикаций, где автор делится не только проверенными результатами (SOTA), но и гипотезами, крайне полезен для развития AI-индустрии, даже несмотря на то, что успех подобных инициатив во многом опирается на авторитет самого Хинтона.

Концепция парсинга изображений и наследие «капсул» 2:52

Основная цель GLOM — научить нейросеть «разбирать» (парсить) изображение на иерархию «объект — часть — деталь». Традиционные нейросети работают с непрерывными данными, однако человеческое восприятие структурирует мир в символические отношения. Хинтон стремится объединить гибкость нейронных сетей со способностью строить динамические деревья разбора, которые адаптируются под каждое конкретное изображение.

Ранее Хинтон пытался решить эту задачу с помощью Capsule Networks, где каждый «капсульный» узел отвечал за конкретную часть объекта. Однако этот подход столкнулся с двумя критическими ограничениями:

Масштабируемость: Для распознавания всего разнообразия объектов требовалось слишком много капсул.
Сложность маршрутизации: Процесс объединения (роутинга) сигналов между капсулами был крайне трудоемким и неэффективным.

Архитектура GLOM: Колонны и острова сходства 7:52

GLOM предлагает более элегантное решение, основанное на системе «колонн». Над каждым участком изображения (локацией) располагается вертикальная колонка, разделенная на уровни абстракции.

Иерархия абстракций: Нижние уровни колонны распознают текстуры или части объектов (например, «мех» или «ухо»), а верхние уровни — более общие понятия («голова кота», «кот»).
Консенсус через коммуникацию: Колонны и уровни внутри них обмениваются информацией, стремясь прийти к согласию.
Механизм обновления: Каждый эмбеддинг (вектор представления) обновляется путем усреднения четырех сигналов: от самого себя на предыдущем шаге, от вышестоящего уровня (top-down), от нижестоящего уровня (bottom-up) и через механизм внимания (lateral).
Формирование островов: Хинтон полагает, что со временем векторы соседних колонок, представляющие один и тот же объект, начнут «сходиться», образуя своего рода «острова идентичности».

Механизм внимания и роль parse tree 21:37

Кильхер указывает на потенциальную проблему: если просто усреднять информацию со всего слоя, нейросеть может «подтянуть» данные из нерелевантных частей дерева разбора. В качестве решения Кильхер предлагает модулировать механизм внимания в зависимости от того, насколько близко элементы находятся в иерархическом дереве разбора, а не только по схожести векторов. Сам Хинтон, по мнению Кильхера, делает ставку на то, что использование внимания само по себе заставляет сеть учиться строить правильные «острова».

Обучение, контрастность и видео 43:31

Система обучается как шумоподавляющий автокодировщик (denoising autoencoder) — она должна восстанавливать поврежденные участки изображения, используя знания об объектах. Для предотвращения схлопывания (коллапса) представлений, когда все векторы становятся одинаковыми, Хинтон предлагает использовать контрастное обучение, но с осторожностью. Например, требовать схожести эмбеддингов для двух кропов изображения имеет смысл только на верхнем уровне абстракции, так как на нижнем они могут отображать принципиально разные части объекта.

Также система естественным образом масштабируется на видео: пока колонны ищут консенсус, можно подавать разные кадры, что создает эффект ансамблирования и регуляризации. Тем не менее, Хинтон признает ограничение: при слишком быстром изменении сцены нейросеть просто не успеет итеративно «устаканить» верную интерпретацию объекта — подобно тому, как человеческий глаз не может распознать форму вращающегося в воздухе картофеля.