Как нейросеть VGG-16 и фМРТ реконструируют изображения из мозга человека

Yannic Kilcher 21,3 тыс. 17 мин 3 мин 25.05.2020
Главное

Чтение мыслей с помощью МРТ и нейросетей: как алгоритмы визуализируют активность человеческого мозга

Исследователи из Японии представили технологию, способную буквально «заглядывать» в голову человека и воссоздавать изображения, которые он видит в данный момент. Ведущий YouTube-канала Yannic Kilcher разобрал научную работу Гуа Шэня и его коллег, объяснив, как связка функциональной МРТ и глубоких нейронных сетей (DNN) позволяет декодировать сигналы коры головного мозга в узнаваемые визуальные образы.

🚀 Архитектура «чтения мыслей»: от МРТ к пикселям 0:00

Процесс реконструкции изображения базируется на сложном конвейере, соединяющем биологию и машинное обучение . В основе эксперимента лежит использование функциональной магнитно-резонансной томографии (фМРТ). В отличие от структурной МРТ, фМРТ измеряет уровень потребления кислорода клетками мозга, что позволяет в реальном времени видеть, какие области коры активны .

Ключевые компоненты системы:

Процесс обучения выглядит следующим образом: человеку показывают изображение (X), одновременно фиксируя активность мозга через фМРТ и пропуская это же изображение через нейросеть VGG-16 . Задача системы — минимизировать ошибку и научиться предсказывать, какие признаки в нейросети соответствуют конкретным паттернам активации нейронов в мозгу .

🧠 Глубокая реконструкция и использование априорных знаний 5:29

После того как декодер обучен, исследователи переходят к самой зрелищной части — воссозданию картинки. Вместо того чтобы просто пытаться «нарисовать» изображение напрямую, система использует итеративный процесс, похожий на DeepDream .

Алгоритм начинает с «шумного» изображения (случайных пикселей) и постепенно меняет его с помощью градиентного спуска . Цель — найти такое изображение, которое при прохождении через нейросеть выдаст признаки, максимально близкие к тем, что были считаны из мозга человека .

Янник Килчер подчеркивает важный нюанс: нейросети часто выдают «странные» результаты, потому что многим разным картинкам могут соответствовать одни и те же признаки. Чтобы решить эту проблему, авторы работы применили DGN (Deep Generator Network) — генеративную сеть, обученную на естественных изображениях . Она выступает в роли фильтра (prior), заставляя систему выдавать не просто шум, а объекты, похожие на реальный мир .

📊 Точность и «эффект соседа»: насколько это реально? 8:16

Результаты реконструкции выглядят впечатляюще: на выходе получаются узнаваемые формы — очертания леопардов, сов, рыб и даже предметов мебели . Однако Килчер призывает к осторожности в оценках. Он отмечает, что хотя авторы заявляют о точности выше 95% по оценке людей-экспертов, методика этого тестирования специфична .

Суть проверки:

По мнению Килчера, система не столько «читает мысли», сколько выполняет поиск «ближайшего соседа» в наборе данных ImageNet . Она находит нечто наиболее похожее на то, что видит человек, исходя из своих внутренних знаний о мире. «В этом нет абсолютно никакого чтения мыслей — скорее реконструкция примера, который сеть уже знает», — утверждает ведущий .

🎨 Геометрические формы и воображаемые образы 11:41

Одним из самых сильных аргументов в пользу технологии стало использование простых геометрических форм и букв . В отличие от фотографий животных, эти символы не являются «естественными изображениями» из обучающей выборки. Тем не менее, когда человек смотрел на знак «плюс» или буквы, система выдавала на удивление четкие очертания соответствующих фигур .

Также исследователи попытались реконструировать изображения, которые люди не видели, а только вспоминали или воображали . Здесь результаты оказались спорными:

  1. При отзыве (recall): Когда человека просили представить изображение, которое ему только что показали, реконструкция работала с переменным успехом .
  2. При чистом воображении: Точность резко падала. Янник предполагает, что при воспоминании мы не фиксируем детали до пикселя, а запоминаем лишь «важные вещи», из-за чего визуальная кора реагирует иначе, чем при прямом взгляде на объект .

В завершение обзора Килчер признается, что, несмотря на скепсис относительно термина «чтение мыслей», он впечатлен технической реализацией . Способность алгоритма извлекать визуальную информацию из биологического субстрата и превращать её в понятную картинку открывает огромные перспективы для понимания работы человеческого сознания.

💬 Цитаты

«По сути, они берут человека, засовывают его в аппарат МРТ и обучают функцию, которая минимизирует ошибку между данными мозга и признаками нейросети.»

Янник Килчер 04:04

«В этом нет абсолютно никакого чтения мыслей в прямом смысле. Система скорее реконструирует пример из ImageNet, который напоминает то, что видит человек.»

Янник Килчер 11:01
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
фМРТ (fMRI)
Метод сканирования мозга, который измеряет изменения в кровотоке и потреблении кислорода для определения активности нейронов.
VGG-16
Классическая архитектура глубокой сверточной нейронной сети, часто используемая для задач распознавания образов.
Градиентный спуск
Алгоритм оптимизации, используемый здесь для постепенного изменения пикселей изображения до достижения нужных признаков.
DGN (Deep Generator Network)
Нейросеть-генератор, которая помогает алгоритму создавать картинки, похожие на естественные фотографии, а не на хаотичный шум.
📊 Цифры
🗓 Хронология
  1. 2018 Ориентировочное время публикации обсуждаемого исследования (Янник упоминает начало прошлого года в видео 2019-го).
⚖️ Другая сторона
Искусственный интеллект фМРТ VGG-16 Yannic Kilcher визуальная кора нейробиология