# Реконструкция зрения по fMRI: Пол Скотти представляет проект Mind Eye 2

Источник: https://www.youtube.com/watch?v=7_BS8tuUoZY
Канал: The Cognitive Revolution
Опубликовано: 17.04.2024

---

Современные нейросети научились воссоздавать изображения, которые видит человек, анализируя активность его мозга. В новом выпуске подкаста The Cognitive Revolution ведущий автор проекта Mind Eye 2 Пол Скотти объясняет, как исследователям удалось сократить время обучения модели с 40 часов до одного часа и почему это открывает путь к созданию глобальной фундаментной модели мозга.

## 🧠 От академических экспериментов к реальному времени: эволюция Mind Eye
[[JUMP:4:08]]

Проект Mind Eye зародился в открытом научном сообществе на Discord-сервере Lion. Пол Скотти, будучи постдоком в лаборатории Кена Нормана, объединился с Танишем Мэтью Абрахамом (основателем MedArc), чтобы решить фундаментальную проблему: реконструкцию визуального опыта из данных функциональной магнитно-резонансной томографии (fMRI).

Основным ограничением первой версии Mind Eye была экстремальная потребность в данных. Для создания рабочей модели для одного человека требовалось от 30 до 40 часов сканирования в fMRI-машине. Учитывая, что час работы томографа стоит около 1000 долларов, такой подход был невозможен для клинического применения или массового использования.

Mind Eye 2 совершил качественный скачок:

* **Эффективность:** теперь для достижения высокого качества реконструкции новому испытуемому достаточно провести в сканере всего 1 час.
* **Экономия данных:** модель требует лишь 2,5% от того объема данных, который был необходим ранее.
* **Гибкость:** технология позволяет дообучать (fine-tune) общую модель под конкретную анатомию мозга нового пользователя за считанные часы.


## 🔬 Биология и цифры: как 2-миллиметровые кубики крови превращаются в данные
[[JUMP:14:32]]

Технически fMRI не измеряет активность нейронов напрямую. Вместо этого аппарат фиксирует уровень оксигенации крови (BOLD-сигнал): когда определенная зона мозга работает интенсивно, она потребляет больше ресурсов, и организм направляет туда поток свежей крови.

Данные собираются в виде вокселей (voxels) — трехмерных пикселей. В исследовании использовались воксели размером примерно 1,8–2 мм³. Весь визуальный кортекс человека при таком разрешении разбивается на массив из 12 000–17 000 вокселей.

Исследователи столкнулись с проблемой анатомической вариативности:

1.  У каждого человека мозг имеет уникальный размер и форму.
2.  Функциональная топография (то, какая точка мозга за что отвечает) индивидуальна.
3.  Один и тот же воксель в одинаковой позиции у двух разных людей может обрабатывать разные сигналы.


Для решения этой проблемы в Mind Eye 2 используется «общий латентный мозг» (shared latent brain space). Каждому пользователю назначается индивидуальный легкий адаптер (линейная регрессия), который отображает его уникальные воксели в единое пространство размерностью 4096.

## ⚡ Архитектура Mind Eye 2: магия общего латентного пространства
[[JUMP:29:23]]

Ключевая идея Пола Скотти и его команды заключалась в том, чтобы не пытаться переводить воксели напрямую в пиксели изображения. Это потребовало бы астрономического количества параметров. Вместо этого они решили сопоставлять данные мозга с уже существующими «смысловыми» пространствами больших нейросетей.

Процесс обработки данных выглядит следующим образом:

1.  **Сжатие:** Активность мозга переводится в общее латентное пространство.
2.  **Маппинг в CLIP:** Из этого пространства данные отображаются в CLIP-пространство (разработка OpenAI), которое связывает смыслы изображений и текста.
3.  **Реконструкция:** На финальном этапе используется модель диффузии для генерации картинки.

Пол Скотти подчеркивает, что визуальный кортекс содержит не только «сырую» геометрию (линии, цвета), но и глубокую семантику. Например, зона FFA (fusiform face area) специализируется исключительно на лицах. Благодаря этому модель может понять, что человек видит именно зебру, даже если картинка получается немного размытой.

## 🖼️ Роль фундаментных моделей: CLIP и Stable Diffusion XL
[[JUMP:31:24]]

Mind Eye 2 активно использует достижения современной индустрии генеративного ИИ. В первой версии использовалась модель Versatile Diffusion, но во второй авторы перешли на Stable Diffusion XL (SDXL).

Однако стандартные модели не подходили идеально. По мнению Скотти, обычный CLIP слишком «творческий»: если вы подадите ему эмбеддинг тигра, он может выдать сотни разных тигров в разных позах. Для научной точности требовалось получить «тот самый» образ.

Чтобы достичь этого, команда:

* Обучила собственную модель **unclip** для SDXL.
* Использовала не только финальный вектор CLIP, но и промежуточные слои Vision Transformer (токенизированные выходы), что позволило сохранить низкоуровневые детали изображения.
* Добавила модуль предсказания текстовых подписей (captions) прямо из активности мозга для дополнительной коррекции генерации.

Любопытно, что Пол называет маппинг в CLIP «третьей модальностью». Это позволяет проводить поиск (retrieval) по базе данных: модель может с высокой точностью определить, какую именно фотографию из тысячи похожих (например, конкретную зебру из десяти вариантов) видел человек.

## 🚀 Будущее нейронауки: фундаментная модель на миллионах часов данных
[[JUMP:57:27]]

Сейчас команда MedArc работает над амбициозным проектом — созданием фундаментной модели для fMRI по аналогии с GPT-4.

Текущие планы включают:

* **Масштаб:** переход от сотен часов данных (от 8 испытуемых) к миллионам часов сканирования, накопленным в публичных архивах и медицинских учреждениях.
* **Стандартизация:** использование формата BIDS (Brain Image Data Set) для объединения разрозненных исследований.
* **Мультимодальность:** обучение модели понимать данные не только fMRI, но и более простых (хотя и менее точных) датчиков, таких как ЭЭГ или ультразвук.

Пол Скотти полагает, что такая модель станет мощным инструментом для врачей, позволяя находить биомаркеры психических расстройств и нейродегенеративных заболеваний на ранних стадиях. Кроме того, ведутся совместные работы с Принстонским университетом и Университетом Миннесоты по декодированию ментальных образов (когда человек не смотрит на картинку, а просто представляет её) и памяти.

## ⚖️ Этика и риски: чтение мыслей против приватности
[[JUMP:1:03:03]]

Несмотря на впечатляющие результаты, Скотти призывает не поддаваться панике по поводу «детектора лжи нового поколения». По его словам, текущая технология fMRI имеет фундаментальные физические ограничения:

* **Требование неподвижности:** если испытуемый сдвинет голову хотя бы на миллиметр, данные будут искажены.
* **Добровольное участие:** невозможно прочитать мысли человека, который этого не хочет или не концентрируется на задаче.
* **Стоимость и габариты:** fMRI — это огромная и дорогая машина, которую нельзя использовать скрытно.

Тем не менее, оба собеседника согласны, что по мере развития инвазивных интерфейсов (вроде Neuralink) и повышения качества неинвазивных датчиков, вопросы приватности мозга станут критическими. Скотти утверждает, что сейчас исследователи находятся в «золотой середине» (sweet spot): технология уже полезна для науки, но еще недостаточно сильна, чтобы стать дестабилизирующей силой в обществе.