Современные нейросети научились воссоздавать изображения, которые видит человек, анализируя активность его мозга. В новом выпуске подкаста The Cognitive Revolution ведущий автор проекта Mind Eye 2 Пол Скотти объясняет, как исследователям удалось сократить время обучения модели с 40 часов до одного часа и почему это открывает путь к созданию глобальной фундаментной модели мозга.
🧠 От академических экспериментов к реальному времени: эволюция Mind Eye 4:08
Проект Mind Eye зародился в открытом научном сообществе на Discord-сервере Lion. Пол Скотти, будучи постдоком в лаборатории Кена Нормана, объединился с Танишем Мэтью Абрахамом (основателем MedArc), чтобы решить фундаментальную проблему: реконструкцию визуального опыта из данных функциональной магнитно-резонансной томографии (fMRI).
Основным ограничением первой версии Mind Eye была экстремальная потребность в данных. Для создания рабочей модели для одного человека требовалось от 30 до 40 часов сканирования в fMRI-машине. Учитывая, что час работы томографа стоит около 1000 долларов, такой подход был невозможен для клинического применения или массового использования.
Mind Eye 2 совершил качественный скачок:
- Эффективность: теперь для достижения высокого качества реконструкции новому испытуемому достаточно провести в сканере всего 1 час.
- Экономия данных: модель требует лишь 2,5% от того объема данных, который был необходим ранее.
- Гибкость: технология позволяет дообучать (fine-tune) общую модель под конкретную анатомию мозга нового пользователя за считанные часы.
🔬 Биология и цифры: как 2-миллиметровые кубики крови превращаются в данные 14:32
Технически fMRI не измеряет активность нейронов напрямую. Вместо этого аппарат фиксирует уровень оксигенации крови (BOLD-сигнал): когда определенная зона мозга работает интенсивно, она потребляет больше ресурсов, и организм направляет туда поток свежей крови.
Данные собираются в виде вокселей (voxels) — трехмерных пикселей. В исследовании использовались воксели размером примерно 1,8–2 мм³. Весь визуальный кортекс человека при таком разрешении разбивается на массив из 12 000–17 000 вокселей.
Исследователи столкнулись с проблемой анатомической вариативности:
- У каждого человека мозг имеет уникальный размер и форму.
- Функциональная топография (то, какая точка мозга за что отвечает) индивидуальна.
- Один и тот же воксель в одинаковой позиции у двух разных людей может обрабатывать разные сигналы.
Для решения этой проблемы в Mind Eye 2 используется «общий латентный мозг» (shared latent brain space). Каждому пользователю назначается индивидуальный легкий адаптер (линейная регрессия), который отображает его уникальные воксели в единое пространство размерностью 4096.
⚡ Архитектура Mind Eye 2: магия общего латентного пространства 29:23
Ключевая идея Пола Скотти и его команды заключалась в том, чтобы не пытаться переводить воксели напрямую в пиксели изображения. Это потребовало бы астрономического количества параметров. Вместо этого они решили сопоставлять данные мозга с уже существующими «смысловыми» пространствами больших нейросетей.
Процесс обработки данных выглядит следующим образом:
- Сжатие: Активность мозга переводится в общее латентное пространство.
- Маппинг в CLIP: Из этого пространства данные отображаются в CLIP-пространство (разработка OpenAI), которое связывает смыслы изображений и текста.
- Реконструкция: На финальном этапе используется модель диффузии для генерации картинки.
Пол Скотти подчеркивает, что визуальный кортекс содержит не только «сырую» геометрию (линии, цвета), но и глубокую семантику. Например, зона FFA (fusiform face area) специализируется исключительно на лицах. Благодаря этому модель может понять, что человек видит именно зебру, даже если картинка получается немного размытой.
🖼️ Роль фундаментных моделей: CLIP и Stable Diffusion XL 31:24
Mind Eye 2 активно использует достижения современной индустрии генеративного ИИ. В первой версии использовалась модель Versatile Diffusion, но во второй авторы перешли на Stable Diffusion XL (SDXL).
Однако стандартные модели не подходили идеально. По мнению Скотти, обычный CLIP слишком «творческий»: если вы подадите ему эмбеддинг тигра, он может выдать сотни разных тигров в разных позах. Для научной точности требовалось получить «тот самый» образ.
Чтобы достичь этого, команда:
- Обучила собственную модель unclip для SDXL.
- Использовала не только финальный вектор CLIP, но и промежуточные слои Vision Transformer (токенизированные выходы), что позволило сохранить низкоуровневые детали изображения.
- Добавила модуль предсказания текстовых подписей (captions) прямо из активности мозга для дополнительной коррекции генерации.
Любопытно, что Пол называет маппинг в CLIP «третьей модальностью». Это позволяет проводить поиск (retrieval) по базе данных: модель может с высокой точностью определить, какую именно фотографию из тысячи похожих (например, конкретную зебру из десяти вариантов) видел человек.
🚀 Будущее нейронауки: фундаментная модель на миллионах часов данных 57:27
Сейчас команда MedArc работает над амбициозным проектом — созданием фундаментной модели для fMRI по аналогии с GPT-4.
Текущие планы включают:
- Масштаб: переход от сотен часов данных (от 8 испытуемых) к миллионам часов сканирования, накопленным в публичных архивах и медицинских учреждениях.
- Стандартизация: использование формата BIDS (Brain Image Data Set) для объединения разрозненных исследований.
- Мультимодальность: обучение модели понимать данные не только fMRI, но и более простых (хотя и менее точных) датчиков, таких как ЭЭГ или ультразвук.
Пол Скотти полагает, что такая модель станет мощным инструментом для врачей, позволяя находить биомаркеры психических расстройств и нейродегенеративных заболеваний на ранних стадиях. Кроме того, ведутся совместные работы с Принстонским университетом и Университетом Миннесоты по декодированию ментальных образов (когда человек не смотрит на картинку, а просто представляет её) и памяти.
⚖️ Этика и риски: чтение мыслей против приватности 1:03:03
Несмотря на впечатляющие результаты, Скотти призывает не поддаваться панике по поводу «детектора лжи нового поколения». По его словам, текущая технология fMRI имеет фундаментальные физические ограничения:
- Требование неподвижности: если испытуемый сдвинет голову хотя бы на миллиметр, данные будут искажены.
- Добровольное участие: невозможно прочитать мысли человека, который этого не хочет или не концентрируется на задаче.
- Стоимость и габариты: fMRI — это огромная и дорогая машина, которую нельзя использовать скрытно.
Тем не менее, оба собеседника согласны, что по мере развития инвазивных интерфейсов (вроде Neuralink) и повышения качества неинвазивных датчиков, вопросы приватности мозга станут критическими. Скотти утверждает, что сейчас исследователи находятся в «золотой середине» (sweet spot): технология уже полезна для науки, но еще недостаточно сильна, чтобы стать дестабилизирующей силой в обществе.