Реконструкция зрения по fMRI: Пол Скотти представляет проект Mind Eye 2

Современные нейросети научились воссоздавать изображения, которые видит человек, анализируя активность его мозга. В новом выпуске подкаста The Cognitive Revolution ведущий автор проекта Mind Eye 2 Пол Скотти объясняет, как исследователям удалось сократить время обучения модели с 40 часов до одного часа и почему это открывает путь к созданию глобальной фундаментной модели мозга.

🧠 От академических экспериментов к реальному времени: эволюция Mind Eye 4:08

Проект Mind Eye зародился в открытом научном сообществе на Discord-сервере Lion. Пол Скотти, будучи постдоком в лаборатории Кена Нормана, объединился с Танишем Мэтью Абрахамом (основателем MedArc), чтобы решить фундаментальную проблему: реконструкцию визуального опыта из данных функциональной магнитно-резонансной томографии (fMRI).

Основным ограничением первой версии Mind Eye была экстремальная потребность в данных. Для создания рабочей модели для одного человека требовалось от 30 до 40 часов сканирования в fMRI-машине. Учитывая, что час работы томографа стоит около 1000 долларов, такой подход был невозможен для клинического применения или массового использования.

Mind Eye 2 совершил качественный скачок:

Эффективность: теперь для достижения высокого качества реконструкции новому испытуемому достаточно провести в сканере всего 1 час.
Экономия данных: модель требует лишь 2,5% от того объема данных, который был необходим ранее.
Гибкость: технология позволяет дообучать (fine-tune) общую модель под конкретную анатомию мозга нового пользователя за считанные часы.

🔬 Биология и цифры: как 2-миллиметровые кубики крови превращаются в данные 14:32

Технически fMRI не измеряет активность нейронов напрямую. Вместо этого аппарат фиксирует уровень оксигенации крови (BOLD-сигнал): когда определенная зона мозга работает интенсивно, она потребляет больше ресурсов, и организм направляет туда поток свежей крови.

Данные собираются в виде вокселей (voxels) — трехмерных пикселей. В исследовании использовались воксели размером примерно 1,8–2 мм³. Весь визуальный кортекс человека при таком разрешении разбивается на массив из 12 000–17 000 вокселей.

Исследователи столкнулись с проблемой анатомической вариативности:

У каждого человека мозг имеет уникальный размер и форму.
Функциональная топография (то, какая точка мозга за что отвечает) индивидуальна.
Один и тот же воксель в одинаковой позиции у двух разных людей может обрабатывать разные сигналы.

Для решения этой проблемы в Mind Eye 2 используется «общий латентный мозг» (shared latent brain space). Каждому пользователю назначается индивидуальный легкий адаптер (линейная регрессия), который отображает его уникальные воксели в единое пространство размерностью 4096.

⚡ Архитектура Mind Eye 2: магия общего латентного пространства 29:23

Ключевая идея Пола Скотти и его команды заключалась в том, чтобы не пытаться переводить воксели напрямую в пиксели изображения. Это потребовало бы астрономического количества параметров. Вместо этого они решили сопоставлять данные мозга с уже существующими «смысловыми» пространствами больших нейросетей.

Процесс обработки данных выглядит следующим образом:

Сжатие: Активность мозга переводится в общее латентное пространство.
Маппинг в CLIP: Из этого пространства данные отображаются в CLIP-пространство (разработка OpenAI), которое связывает смыслы изображений и текста.
Реконструкция: На финальном этапе используется модель диффузии для генерации картинки.

Пол Скотти подчеркивает, что визуальный кортекс содержит не только «сырую» геометрию (линии, цвета), но и глубокую семантику. Например, зона FFA (fusiform face area) специализируется исключительно на лицах. Благодаря этому модель может понять, что человек видит именно зебру, даже если картинка получается немного размытой.

🖼️ Роль фундаментных моделей: CLIP и Stable Diffusion XL 31:24

Mind Eye 2 активно использует достижения современной индустрии генеративного ИИ. В первой версии использовалась модель Versatile Diffusion, но во второй авторы перешли на Stable Diffusion XL (SDXL).

Однако стандартные модели не подходили идеально. По мнению Скотти, обычный CLIP слишком «творческий»: если вы подадите ему эмбеддинг тигра, он может выдать сотни разных тигров в разных позах. Для научной точности требовалось получить «тот самый» образ.

Чтобы достичь этого, команда:

Обучила собственную модель unclip для SDXL.
Использовала не только финальный вектор CLIP, но и промежуточные слои Vision Transformer (токенизированные выходы), что позволило сохранить низкоуровневые детали изображения.
Добавила модуль предсказания текстовых подписей (captions) прямо из активности мозга для дополнительной коррекции генерации.

Любопытно, что Пол называет маппинг в CLIP «третьей модальностью». Это позволяет проводить поиск (retrieval) по базе данных: модель может с высокой точностью определить, какую именно фотографию из тысячи похожих (например, конкретную зебру из десяти вариантов) видел человек.

🚀 Будущее нейронауки: фундаментная модель на миллионах часов данных 57:27

Сейчас команда MedArc работает над амбициозным проектом — созданием фундаментной модели для fMRI по аналогии с GPT-4.

Текущие планы включают:

Масштаб: переход от сотен часов данных (от 8 испытуемых) к миллионам часов сканирования, накопленным в публичных архивах и медицинских учреждениях.
Стандартизация: использование формата BIDS (Brain Image Data Set) для объединения разрозненных исследований.
Мультимодальность: обучение модели понимать данные не только fMRI, но и более простых (хотя и менее точных) датчиков, таких как ЭЭГ или ультразвук.

Пол Скотти полагает, что такая модель станет мощным инструментом для врачей, позволяя находить биомаркеры психических расстройств и нейродегенеративных заболеваний на ранних стадиях. Кроме того, ведутся совместные работы с Принстонским университетом и Университетом Миннесоты по декодированию ментальных образов (когда человек не смотрит на картинку, а просто представляет её) и памяти.

⚖️ Этика и риски: чтение мыслей против приватности 1:03:03

Несмотря на впечатляющие результаты, Скотти призывает не поддаваться панике по поводу «детектора лжи нового поколения». По его словам, текущая технология fMRI имеет фундаментальные физические ограничения:

Требование неподвижности: если испытуемый сдвинет голову хотя бы на миллиметр, данные будут искажены.
Добровольное участие: невозможно прочитать мысли человека, который этого не хочет или не концентрируется на задаче.
Стоимость и габариты: fMRI — это огромная и дорогая машина, которую нельзя использовать скрытно.

Тем не менее, оба собеседника согласны, что по мере развития инвазивных интерфейсов (вроде Neuralink) и повышения качества неинвазивных датчиков, вопросы приватности мозга станут критическими. Скотти утверждает, что сейчас исследователи находятся в «золотой середине» (sweet spot): технология уже полезна для науки, но еще недостаточно сильна, чтобы стать дестабилизирующей силой в обществе.