Реконструкция зрения по fMRI: Пол Скотти представляет проект Mind Eye 2

The Cognitive Revolution 1,7 тыс. 1 ч 34 мин 5 мин 17.04.2024
Главное

Современные нейросети научились воссоздавать изображения, которые видит человек, анализируя активность его мозга. В новом выпуске подкаста The Cognitive Revolution ведущий автор проекта Mind Eye 2 Пол Скотти объясняет, как исследователям удалось сократить время обучения модели с 40 часов до одного часа и почему это открывает путь к созданию глобальной фундаментной модели мозга.

🧠 От академических экспериментов к реальному времени: эволюция Mind Eye 4:08

Проект Mind Eye зародился в открытом научном сообществе на Discord-сервере Lion. Пол Скотти, будучи постдоком в лаборатории Кена Нормана, объединился с Танишем Мэтью Абрахамом (основателем MedArc), чтобы решить фундаментальную проблему: реконструкцию визуального опыта из данных функциональной магнитно-резонансной томографии (fMRI).

Основным ограничением первой версии Mind Eye была экстремальная потребность в данных. Для создания рабочей модели для одного человека требовалось от 30 до 40 часов сканирования в fMRI-машине. Учитывая, что час работы томографа стоит около 1000 долларов, такой подход был невозможен для клинического применения или массового использования.

Mind Eye 2 совершил качественный скачок:

🔬 Биология и цифры: как 2-миллиметровые кубики крови превращаются в данные 14:32

Технически fMRI не измеряет активность нейронов напрямую. Вместо этого аппарат фиксирует уровень оксигенации крови (BOLD-сигнал): когда определенная зона мозга работает интенсивно, она потребляет больше ресурсов, и организм направляет туда поток свежей крови.

Данные собираются в виде вокселей (voxels) — трехмерных пикселей. В исследовании использовались воксели размером примерно 1,8–2 мм³. Весь визуальный кортекс человека при таком разрешении разбивается на массив из 12 000–17 000 вокселей.

Исследователи столкнулись с проблемой анатомической вариативности:

  1. У каждого человека мозг имеет уникальный размер и форму.
  2. Функциональная топография (то, какая точка мозга за что отвечает) индивидуальна.
  3. Один и тот же воксель в одинаковой позиции у двух разных людей может обрабатывать разные сигналы.

Для решения этой проблемы в Mind Eye 2 используется «общий латентный мозг» (shared latent brain space). Каждому пользователю назначается индивидуальный легкий адаптер (линейная регрессия), который отображает его уникальные воксели в единое пространство размерностью 4096.

⚡ Архитектура Mind Eye 2: магия общего латентного пространства 29:23

Ключевая идея Пола Скотти и его команды заключалась в том, чтобы не пытаться переводить воксели напрямую в пиксели изображения. Это потребовало бы астрономического количества параметров. Вместо этого они решили сопоставлять данные мозга с уже существующими «смысловыми» пространствами больших нейросетей.

Процесс обработки данных выглядит следующим образом:

  1. Сжатие: Активность мозга переводится в общее латентное пространство.
  2. Маппинг в CLIP: Из этого пространства данные отображаются в CLIP-пространство (разработка OpenAI), которое связывает смыслы изображений и текста.
  3. Реконструкция: На финальном этапе используется модель диффузии для генерации картинки.

Пол Скотти подчеркивает, что визуальный кортекс содержит не только «сырую» геометрию (линии, цвета), но и глубокую семантику. Например, зона FFA (fusiform face area) специализируется исключительно на лицах. Благодаря этому модель может понять, что человек видит именно зебру, даже если картинка получается немного размытой.

🖼️ Роль фундаментных моделей: CLIP и Stable Diffusion XL 31:24

Mind Eye 2 активно использует достижения современной индустрии генеративного ИИ. В первой версии использовалась модель Versatile Diffusion, но во второй авторы перешли на Stable Diffusion XL (SDXL).

Однако стандартные модели не подходили идеально. По мнению Скотти, обычный CLIP слишком «творческий»: если вы подадите ему эмбеддинг тигра, он может выдать сотни разных тигров в разных позах. Для научной точности требовалось получить «тот самый» образ.

Чтобы достичь этого, команда:

Любопытно, что Пол называет маппинг в CLIP «третьей модальностью». Это позволяет проводить поиск (retrieval) по базе данных: модель может с высокой точностью определить, какую именно фотографию из тысячи похожих (например, конкретную зебру из десяти вариантов) видел человек.

🚀 Будущее нейронауки: фундаментная модель на миллионах часов данных 57:27

Сейчас команда MedArc работает над амбициозным проектом — созданием фундаментной модели для fMRI по аналогии с GPT-4.

Текущие планы включают:

Пол Скотти полагает, что такая модель станет мощным инструментом для врачей, позволяя находить биомаркеры психических расстройств и нейродегенеративных заболеваний на ранних стадиях. Кроме того, ведутся совместные работы с Принстонским университетом и Университетом Миннесоты по декодированию ментальных образов (когда человек не смотрит на картинку, а просто представляет её) и памяти.

⚖️ Этика и риски: чтение мыслей против приватности 1:03:03

Несмотря на впечатляющие результаты, Скотти призывает не поддаваться панике по поводу «детектора лжи нового поколения». По его словам, текущая технология fMRI имеет фундаментальные физические ограничения:

Тем не менее, оба собеседника согласны, что по мере развития инвазивных интерфейсов (вроде Neuralink) и повышения качества неинвазивных датчиков, вопросы приватности мозга станут критическими. Скотти утверждает, что сейчас исследователи находятся в «золотой середине» (sweet spot): технология уже полезна для науки, но еще недостаточно сильна, чтобы стать дестабилизирующей силой в обществе.

💬 Цитаты

«Вы можете получить высокое качество реконструкции всего с 1 часом новых сканов.»

Пол Скотти 2:24

«Мы сейчас работаем над фундаментной моделью на fMRI, используя буквально все доступные публичные данные.»

Пол Скотти 57:27

«Если вы сдвинетесь больше чем на миллиметр, данные будут искажены — это серьезный барьер для злоупотреблений.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Воксель
Объемный элемент данных, представляющий значение в трехмерном пространстве (аналог пикселя для 3D).
fMRI (МРТ)
Метод измерения активности мозга через фиксацию изменений в кровотоке.
CLIP
Нейросеть от OpenAI, обученная сопоставлять изображения с их текстовыми описаниями.
Shared Subject Model
Подход в машинном обучении, позволяющий объединять данные разных людей в единую математическую модель.
BOLD-сигнал
Уровень зависимости оксигенации крови, который служит индикатором нейронной активности в fMRI.
📊 Цифры
🗓 Хронология
  1. 2012 Появление первых нейровизуальных реконструкций (контекст исторического развития).
  2. 2022 Пол Скотти присоединяется к сообществу Lion и начинает работу над проектом.
  3. 2023 Публикация первой версии Mind Eye.
  4. 2024 Выпуск Mind Eye 2 и начало работы над фундаментной моделью.
⚖️ Другая сторона
Искусственный интеллект Mind Eye 2 MedArc Stability AI fMRI CLIP