Как нейросеть VGG-16 и фМРТ реконструируют изображения из мозга человека

Чтение мыслей с помощью МРТ и нейросетей: как алгоритмы визуализируют активность человеческого мозга

Исследователи из Японии представили технологию, способную буквально «заглядывать» в голову человека и воссоздавать изображения, которые он видит в данный момент. Ведущий YouTube-канала Yannic Kilcher разобрал научную работу Гуа Шэня и его коллег, объяснив, как связка функциональной МРТ и глубоких нейронных сетей (DNN) позволяет декодировать сигналы коры головного мозга в узнаваемые визуальные образы.

🚀 Архитектура «чтения мыслей»: от МРТ к пикселям 0:00

Процесс реконструкции изображения базируется на сложном конвейере, соединяющем биологию и машинное обучение . В основе эксперимента лежит использование функциональной магнитно-резонансной томографии (фМРТ). В отличие от структурной МРТ, фМРТ измеряет уровень потребления кислорода клетками мозга, что позволяет в реальном времени видеть, какие области коры активны .

Ключевые компоненты системы:

Визуальная кора: Объект наблюдения. Именно здесь обрабатываются входящие зрительные стимулы .
Декодер признаков (Feature Decoder): Алгоритм, который сопоставляет данные фМРТ с внутренними представлениями нейросети .
VGG-16: Нейронная сеть (классическая сверточная архитектура), используемая как эталон для сравнения «признаков» изображения в цифровом и биологическом виде .

Процесс обучения выглядит следующим образом: человеку показывают изображение (X), одновременно фиксируя активность мозга через фМРТ и пропуская это же изображение через нейросеть VGG-16 . Задача системы — минимизировать ошибку и научиться предсказывать, какие признаки в нейросети соответствуют конкретным паттернам активации нейронов в мозгу .

🧠 Глубокая реконструкция и использование априорных знаний 5:29

После того как декодер обучен, исследователи переходят к самой зрелищной части — воссозданию картинки. Вместо того чтобы просто пытаться «нарисовать» изображение напрямую, система использует итеративный процесс, похожий на DeepDream .

Алгоритм начинает с «шумного» изображения (случайных пикселей) и постепенно меняет его с помощью градиентного спуска . Цель — найти такое изображение, которое при прохождении через нейросеть выдаст признаки, максимально близкие к тем, что были считаны из мозга человека .

Янник Килчер подчеркивает важный нюанс: нейросети часто выдают «странные» результаты, потому что многим разным картинкам могут соответствовать одни и те же признаки. Чтобы решить эту проблему, авторы работы применили DGN (Deep Generator Network) — генеративную сеть, обученную на естественных изображениях . Она выступает в роли фильтра (prior), заставляя систему выдавать не просто шум, а объекты, похожие на реальный мир .

📊 Точность и «эффект соседа»: насколько это реально? 8:16

Результаты реконструкции выглядят впечатляюще: на выходе получаются узнаваемые формы — очертания леопардов, сов, рыб и даже предметов мебели . Однако Килчер призывает к осторожности в оценках. Он отмечает, что хотя авторы заявляют о точности выше 95% по оценке людей-экспертов, методика этого тестирования специфична .

Суть проверки:

Человеку-испытателю показывают реконструированное изображение и два варианта оригинала.
Если испытуемый может правильно выбрать, какой из оригиналов стал «прародителем» реконструкции, это считается попаданием .
Базовая вероятность угадывания здесь — 50%, поэтому 95% — это отличный результат, но он не означает идеального сходства .

По мнению Килчера, система не столько «читает мысли», сколько выполняет поиск «ближайшего соседа» в наборе данных ImageNet . Она находит нечто наиболее похожее на то, что видит человек, исходя из своих внутренних знаний о мире. «В этом нет абсолютно никакого чтения мыслей — скорее реконструкция примера, который сеть уже знает», — утверждает ведущий .

🎨 Геометрические формы и воображаемые образы 11:41

Одним из самых сильных аргументов в пользу технологии стало использование простых геометрических форм и букв . В отличие от фотографий животных, эти символы не являются «естественными изображениями» из обучающей выборки. Тем не менее, когда человек смотрел на знак «плюс» или буквы, система выдавала на удивление четкие очертания соответствующих фигур .

Также исследователи попытались реконструировать изображения, которые люди не видели, а только вспоминали или воображали . Здесь результаты оказались спорными:

При отзыве (recall): Когда человека просили представить изображение, которое ему только что показали, реконструкция работала с переменным успехом .
При чистом воображении: Точность резко падала. Янник предполагает, что при воспоминании мы не фиксируем детали до пикселя, а запоминаем лишь «важные вещи», из-за чего визуальная кора реагирует иначе, чем при прямом взгляде на объект .

В завершение обзора Килчер признается, что, несмотря на скепсис относительно термина «чтение мыслей», он впечатлен технической реализацией . Способность алгоритма извлекать визуальную информацию из биологического субстрата и превращать её в понятную картинку открывает огромные перспективы для понимания работы человеческого сознания.