Яблоко или iPod? Как текст обманывает зрение нейросетей

Исследование искусственного интеллекта от компании OpenAI привело к неожиданному открытию: в нейросети CLIP существуют так называемые мультимодальные нейроны, которые реагируют не на конкретные пиксели, а на целые абстрактные концепты. Популярный исследователь ИИ Янник Килчер (Yannic Kilcher) подробно разбирает научную работу, в которой описывается это явление, и с помощью платформы OpenAI Microscope наглядно демонстрирует изнанку компьютерного зрения. Этот анализ заставляет переосмыслить то, как современные нейросети связывают текст и изображения, и обнажает их удивительные уязвимости.

🧠 Модель CLIP и феномен биологического восприятия 0:00

Научная работа, опубликованная в интерактивном журнале Distill, стала результатом совместного исследования большой группы ученых из OpenAI, включая Габриэля Го, Ника Каммарату, Челси Восс, Шэна Картера, Михаила Петрова, Людвига Шуберта, Алека Рэдфорда и Криса Ола. Исследователи задались целью изучить внутреннее устройство модели CLIP и обнаружили в ней структуры, поразительно напоминающие механизмы человеческого мозга.

В биологических нейронных сетях давно известно существование специализированных клеток, отвечающих за сложные абстрактные понятия. По словам Янника Килчера, классическим примером является «нейрон Холли Берри», который активируется независимо от того, видит ли человек фотографию актрисы, ее рисунок или просто читает ее имя, написанное на бумаге. До недавнего времени в искусственных нейросетях ничего подобного не наблюдалось: традиционные классификаторы изображений реагировали исключительно на визуальные паттерны в рамках жестко заданных классов.

Ситуация в корне изменилась с появлением модели CLIP, разработанной OpenAI. Эксперименты показали, что внутри сети сформировались истинные мультимодальные нейроны. В качестве примера ведущий приводит нейрон «Человека-паука»: одна и та же структура внутри CLIP активируется при предъявлении реальной фотографии человека в костюме супергероя, комиксного рисунка и даже просто отрендеренного текста со словом «spider». По мнению Янника Килчера, это доказывает, что модель научилась связывать принципиально разные модальности данных на глубоком понятийном уровне. При этом блогер выдвигает тезис, что CLIP в значительной степени является именно текстовой моделью, поскольку большинство внутренних ассоциаций строятся вокруг семантики слов.

🔬 Инструментарий исследователя: OpenAI Microscope и фасетчатая визуализация 3:38

Для детального изучения внутренностей нейросети авторы работы использовали платформу OpenAI Microscope. Этот инструмент позволяет буквально кликать по отдельным слоям и нейронам модели, изучая их визуальные профили. Визуализация в интерфейсе Microscope разделена на два ключевых метода:

Оптимизация каналов (channel optimization) на левой панели, которая выявляет общие текстурные паттерны.
Оптимизация отдельных нейронов (neuron optimization) на правой панели, показывающая конкретные изолированные объекты.

Эти методы генерируют синтетические изображения, которые вызывают максимальный отклик конкретного нейрона. Дополнительно система подтягивает реальные примеры из датасетов ImageNet и Flickr Creative Commons, которые сильнее всего активируют исследуемую структуру. Чтобы понять текстовые предпочтения сети, исследователи применяют специальный поисковый алгоритм. Он подбирает фразы, максимизирующие скалярное произведение (dot product) между текстовым эмбеддингом и весами конкретного нейрона.

Главным методологическим новшеством обсуждаемой статьи стала так называемая фасетчатая визуализация (faceted visualization). Этот метод позволяет исследователям генерировать не просто абстрактные картинки, а разделять репрезентацию нейрона на четкие категории (фасеты). Например, для одного и того же нейрона можно принудительно сгенерировать только человеческие лица, только интерьеры или только пейзажи, чтобы точнее понять спектр его реакций. По словам Янника Килчера, этот процесс управляется с помощью линейных классификаторов (linear probes), обученных на сторонних датасетах для фильтрации нужных признаков, что позволяет ювелирно направлять процесс генерации.

👤 Трепанация нейронов: от Дональда Трампа до ментальных расстройств 8:41

Клик-интерфейс OpenAI Microscope позволил обнаружить нейроны, отвечающие за конкретных личностей, эмоции и даже сложные социальные феномены. Одним из центральных кейсов в статье стало исследование нейрона Дональда Трампа. Авторы классифицировали изображения, вызывающие его отклик, и выяснили следующее:

Профильные фотографии Трампа активируют нейрон на 30 стандартных отклонений выше среднего уровня по датасету.
Карикатуры, рисунки и мемы с Трампом вызывают столь же мощную активацию.
Отрендеренный текст с фамилией политика или символика его кампании (например, кепки MAGA) задействуют ту же самую структуру.

Интересно, что данный нейрон сильнее всего подавляется (деактивируется) при виде поп-музыкантов (Ники Минаж, Эминем), видеоигр (Fortnite), борцов за гражданские права (Мартин Лютер Кинг) и ЛГБТ-символики. Авторы статьи интерпретируют отрицательную активацию как концептуальное противопоставление в пространстве признаков. Однако Янник Килчер призывает к осторожности в политических трактовках: по его мнению, отрицательные значения здесь отражают лишь низкую вероятность совместного упоминания этих концептов в обучающей выборке, а не глубинную идеологическую вражду внутри ИИ. К слову, фотографии Майка Пенса, Теда Круза и Барака Обамы активируют «нейрон Трампа» значительно сильнее, чем изображения Адольфа Гитлера.

Помимо персоналий, ученые выделили нейроны эмоций. Например, нейрон «шока и удивления» бурно реагирует на испуганные человеческие лица, ошарашенных лошадей и текст вроде «wtf» или «omg». Фасетчатая генерация нейрона «зла» выдает изображения дьявола и сатаны, а нейрон «счастья» — улыбающиеся позы и позитивный текст.

Особое удивление у ведущего вызвал нейрон «ментальных расстройств». При генерации лиц он выдает глубоко депрессивные образы, а в реальном датасете активируется на фотографии людей в состоянии тревоги и обложки книг по психотерапии (например, «Преодоление тревожности»). Янник Килчер подчеркивает, что модель не «понимает» суть ментальных болезней в человеческом смысле. По его мнению, CLIP просто статистически связывает визуальные образы грусти со специфическим текстом из описаний к картинкам, выступая скорее как продвинутый текстовый процессор.

🗺️ Географический атлас и абстрактные понятия внутри сети 22:44

Внутри CLIP были обнаружены так называемые региональные нейроны, привязанные к географическим локациям. Эксперименты показали, что нейрон, отвечающий за территорию США, активируется как при показе фрагмента карты Северной Америки, так и при подаче картинки со словом «american». Аналогично ведет себя «южноазиатский нейрон»: он реагирует на карту региона и слова «Мумбаи», «Пакистан», «Афганистан» и «Бангладеш», генерируя при фасетчатом анализе колоритные местные лица.

Среди региональных находок выделился «нейрон предпринимательства». Он откликается на семантику бизнеса и логотипы компаний, но при этом стабильно загорается при анализе двух географических зон: Западного побережья США (Кремниевая долина) и... юго-западного побережья Африки. Янник Килчер высказывает сомнение в том, что ИИ оценил африканский стартап-потенциал. Блогер предполагает, что это может быть банальной ошибкой геометрии: на мелкомасштабных вырезках карт эти две береговые линии выглядят практически идентично, и сеть их путает.

Попытка составить карту всех эмоциональных нейронов на плоскости привела к красивому научному выводу. Распределение нейронов в 2D-пространстве практически в точности воссоздало классическую психологическую модель эмоций, основанную на осях валентности (приятно/неприятно) и возбуждения (интенсивность). При разложении на семь факторов сеть воспроизвела канонический список базовых эмоций (радость, удивление, страх, гнев), за исключением того, что отвращение в ИИ заместилось комплексным кластером привязанности, куда вошли любовь, одиночество и незначительность.

🍏 Типографские атаки и игнорирование реальности 29:50

Опираясь на то, что CLIP сильно завязан на текст, исследователи провели серию критических тестов на устойчивость ИИ. Результаты оказались ироничными. В режиме классификации «zero-shot» (без дообучения) модель безошибочно распознает зеленое яблоко. Однако, если прямо поверх яблока наклеить бумажку с надписью «iPod», CLIP с абсолютной уверенностью меняет свое решение и заявляет, что перед ним плеер от Apple.

Янник Килчер иронизирует над качеством таких ассоциаций, отмечая, что это «iPod, будто купленный на Craigslist на прошлой неделе». Подобные «типографские атаки» работают практически безотказно: достаточно заполнить изображение фоновым текстом, чтобы полностью дезориентировать зрение модели. Однако уязвимость пропадает, если поверх репрезентаций CLIP обучить стандартный линейный классификатор (linear probe) — в этом случае система возвращается к классическому глубокому обучению и начинает игнорировать текстовые наклейки, переключаясь на реальные визуальные признаки объекта.

Еще одним подтверждением текстовой доминанты стал адаптированный тест Струпа. Когда модели показывали слова, обозначающие цвета, но окрашенные в другие оттенки (например, слово «зеленый» написано белыми буквами), CLIP полностью игнорировал физический цвет пикселей. Модель считывала исключительно буквенное значение. По словам Килчера, это демонстрирует, что CLIP развил в себе мощнейшую внутреннюю функцию OCR (оптического распознавания символов), которая буквально затмевает восприятие форм и цветов. Блогер в шутку предлагает называть процесс генерации изображений по тексту «обратным OCR» вместо привычного слова «рисование».

🕵️‍♂️ Личный архив находок Янника Килчера 33:05

Проведя часы за самостоятельным изучением OpenAI Microscope, Янник Килчер собрал собственную коллекцию удивительных и курьезных нейронов, подтверждающих или опровергающих строгую мультимодальность. Его личный топ находок включает:

Нейрон Супермена: Активируется комиксами, логотипом в виде буквы S и написанием имени героя.
Нейрон «раздраженного лица»: Четко реагирует на людей с легким выражением недовольства.
Нейрон мусорных пакетов: Откликается на пакеты для отходов любого цвета и даже на уличные контейнеры, где самих пакетов не видно.
Нейрон «Сила и Аллах»: Удивительный гибрид, который реагирует на тяжелоатлетов и штанги, но одновременно активируется исламской символикой, Кораном и текстами вроде «жестокая тренировка Бога».
Нейрон внутренних органов: Связывает анатомические рисунки сердца с текстовыми кнопками «Control» и «Ctrl» на клавиатуре.
Нейрон киноиндустрии: Реагирует на бобины с пленкой, попкорн и вывески голливудских кинотеатров.
Нейрон воина (Спартанца): Объединяет упоминания древней Спарты и Трои со спортивными упражнениями (приседаниями) и кадрами со спартанских забегов.
Нейрон бейсбольного стадиона: Загорается при виде арен сверху, названий парков (PNC Park, AT&T Park) и бейсбольных мячей.
Нейрон «флот» (Navy): Невероятно связывает корабельные канаты, эмблемы офицеров и надписи «Navy» на могильных плитах.
Нейрон субкультуры Гоа: Переплетает изображения конопли, психоделические узоры на рубашках, фигуры Боба Марли и Джими Хендрикса.
Нейрон Disney: Моментально узнает уши Микки Мауса, фирменный замок и сам текстовый бренд.
Нейрон Хиллари Клинтон: Показывает забавную особенность — он одинаково реагирует на самого политика и на слова с созвучным корнем (hill, pill).
Нейрон залысин: Специализированная структура, отслеживающая исключительно редеющую линию роста волос у мужчин.
Нейрон Google Maps: Чисто синтетическая структура, которая при максимальной активации реконструирует дорожную разметку, подписи улиц и геометки.
Нейрон Австралии: Демонстрирует высшую степень цифровой ассоциации, реагируя на национальный флаг и на текстовое доменное расширение «.au».
Нейрон Симпсонов и пчел: Необъяснимый феномен совмещения в одной структуре желтых персонажей мультсериала и полосатых насекомых.

Янник Килчер подчеркивает, что в исследуемой модели CLIP содержатся тысячи подобных единиц. Он призывает зрителей самостоятельно зайти на OpenAI Microscope, продолжить поиски скрытых смыслов и делиться своими самыми безумными находками в сообществе.