ИИ научился читать мысли: как MedArch реконструирует изображения из фРТ

В интервью для подкаста The Cognitive Revolution двадцатилетний доктор биоинженерии Танишк Мэтью Абрахам рассказал о прорывном исследовании своей лаборатории MedArch по чтению мыслей с помощью искусственного интеллекта. Объединив неинвазивное сканирование мозга и предобученные генеративные нейросети, ученым удалось с поразительной точностью реконструировать изображения, которые видели испытуемые. Этот подход не просто открывает новые горизонты в нейробиологии, но и доказывает эффективность работы со специализированными архитектурами ИИ в условиях ограниченных данных и вычислительных бюджетов.

🧠 Технологический скачок: как заглянуть в зрительную кору человека 5:35

В основе проекта лежит научная работа под названием «Reconstructing The Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors», которая вызвала широкий резонанс в научных кругах и социальных сетях. Для проведения экспериментов исследователи использовали публично доступный датасет функциональной магнитно-резонансной томографии (фРТ), выпущенный в 2020–2021 годах. Главной особенностью этого набора данных стало использование мощного томографа с индукцией магнитного поля в 7 Тесла. Большинство стандартных медицинских сканеров работают в диапазоне от 1,5 до 3 Тесла, поэтому оборудование в 7 Тесла позволило получить сигнал фРТ беспрецедентно высокого разрешения с минимальным уровнем шума.

Данные собирались от восьми здоровых испытуемых. Процесс был крайне трудоемким: люди часами неподвижно сидели внутри томографа, просматривая разнообразные изображения. Каждая картинка демонстрировалась в течение нескольких секунд, после чего следовала короткая пауза, и цикл повторялся, пока прибор фиксировал изменения в мозге.

Для обучения ИИ исследователи выделили массив из 15 000 вокселей. Воксель представляет собой трехмерный куб — базовый элемент объемного изображения ткани. В данном случае размер одного вокселя составлял примерно 2х2х2 миллиметра. Из всего объема сканирования авторы оригинального датасета выделили подмножество вокселей, расположенных в затылочной доле головного мозга и отвечающих исключительно за зрительное восприятие.

Каждый воксель в сырых данных содержит простое скалярное значение. Сигнал фРТ измеряет уровень оксигенации крови (так называемый BOLD-сигнал): когда определенная область мозга активизируется, она начинает интенсивно потреблять кислород, что и фиксирует томограф. Поскольку гемодинамические процессы в организме протекают относительно медленно, фРТ обладает низким временным разрешением. На выходе нейросеть получает не динамическое видео, а статичный снимок, состоящий из 15 000 чисел, отражающих интенсивность метаболизма в зрительной коре в момент фиксации взгляда на объекте.

🗺️ Архитектурные «клещи»: двухвекторная система декодирования мыслей 17:41

Главная сложность задачи заключалась в том, чтобы превратить массив из 15 000 чисел в полноценную картинку высокого качества. Команда под руководством Танишка Мэтью Абрахама решила не изобретать генеративную модель с нуля, а использовать существующие ИИ-модели, научившись сопоставлять скрытые пространства (latent spaces). Архитектура решения разделилась на два параллельных потока: высокоуровневый семантический и низкоуровневый структурный.

Высокоуровневый поток отвечает за смысл изображения. На первом этапе базовая многослойная перцептронная нейросеть (MLP) преобразует 15 000 чисел из фРТ в векторное представление (эмбеддинг) мультимодальной модели CLIP от OpenAI. CLIP связывает текст и изображения в едином пространстве. Однако эмбеддинг, полученный напрямую из MLP, изначально не выровнен с истинным пространством CLIP. По словам Абрахама, это фундаментальное свойство контрастивного обучения: даже в оригинальной модели CLIP текстовые и графические эмбеддинги одной и той же сущности (например, фотографии собаки и слова «собака») имеют высокую косинусную близость, но их абсолютные числовые значения сильно различаются.

Чтобы решить эту проблему, разработчики использовали механизм под названием «диффузионный приор» (diffusion prior) — метод, заимствованный из архитектуры DALL-E 2 от OpenAI. Этот блок берет предсказанный из фРТ эмбеддинг и трансформирует его так, чтобы он идеально совпал по значениям с оригинальным графическим эмбеддингом CLIP. Полученный выровненный вектор передается в замороженную предобученную модель генерации изображений Versatile Diffusion.

Вместо того чтобы предсказывать единый глобальный вектор размером 1х768, MLP в архитектуре MedArch прогнозирует полный тензор размером 257х768. Картинка бьется на 256 отдельных фрагментов-патчей, для каждого из которых вычисляется свой вектор из 768 чисел, плюс один вектор для глобального описания. По мнению Абрахама, сохранение пофрагментной информации позволяет удержать тонкие пространственные связи, которые теряются при усреднении.

Низкоуровневый поток отвечает за геометрию, композицию и базовые цвета. Эмбеддинги CLIP отлично передают смысл («на картинке зебра»), но упускают эстетические свойства, точное расположение объектов и фоновые оттенки. Параллельно с семантическим блоком исследователи настроили простую модель для перевода данных фРТ в латентное представление вариационного автокодировщика (VAE) из Stable Diffusion. Декодирование этого латентного вектора дает крайне размытое, расфокусированное изображение, напоминающее цветовые пятна. Однако это пятно содержит точную информацию о том, где именно в пространстве находился объект и какие цвета преобладали. Размытый силуэт используется в качестве стартовой точки для диффузионного процесса (апскейлинг по принципу image-to-image) вместо стандартного случайного шума. Комбинация двух потоков позволяет генерировать четкие финальные изображения, семантически и композиционно близкие к оригиналу.

🔍 Поиск по базе данных и парадокс точности 21:32

Помимо генерации картинок с нуля, ученые протестировали систему в задаче поиска (retrieval pipeline). Оказалось, что для поиска точного соответствия в базе данных этап выравнивания с помощью диффузионного приора не требуется, так как алгоритмы поиска опираются исключительно на косинусную близость векторов. Предсказанный из фРТ эмбеддинг можно напрямую отправить в векторную базу данных и сравнить с миллионами или миллиардами реальных картинок.

В ходе экспериментов исследователи прогнали эмбеддинги через гигантский открытый датасет LAION-5B, содержащий 5 миллиардов изображений. Результаты превзошли ожидания: система смогла найти среди миллиардов вариантов именно те изображения, которые видел человек.

Танишк Мэтью Абрахам привел в пример показательный случай из исследования:

«В нашем наборе данных было много фотографий зебр. Когда испытуемый смотрел на конкретное изображение зебры, наш алгоритм на основе данных фРТ извлекал из огромной базы именно ту самую картинку, которую видел человек, а не просто случайное фото другого животного этого вида».

По словам гостя, это доказывает, что неинвазивное сканирование фРТ способно фиксировать не просто общую категорию объекта, а тончайшие, детализированные нюансы зрительного восприятия.

При этом ученые столкнулись с интересным феноменом: в процессе обучения возник компромисс между эффективностью поиска и качеством генерации. Попытки обучить нейросеть сквозным методом (end-to-end) приводили к ухудшению результатов в одной из задач. Именно поэтому разделение архитектуры на независимые конвейеры генерации и поиска стало ключевым решением для достижения максимальных метрик. В приложении к научной работе авторы опубликовали UMAP-визуализацию, которая наглядно демонстрирует этот барьер: без использования диффузионного приора эмбеддинги фРТ и истинные графические векторы CLIP формируют два изолированных кластера, которые не пересекаются напрямую, хотя и сохраняют схожую внутреннюю топологию отношений.

💻 Ограниченные данные и мощь предобученных моделей 41:41

Одной из самых удивительных черт исследования является то, что картирование мозговой активности было реализовано без использования тяжелых и модных механизмов трансформеров или блоков внимания (attention) в промежуточных слоях. Сеть, соединяющая показатели датчиков томографа с латентными пространствами графических моделей, представляет собой классический, относительно легкий многослойный перцептрон (MLP).

Проект реализовывался в условиях жесткого дефицита данных. Из-за уникальных анатомических особенностей строения черепа, распределения сосудов и индивидуальной специфики восприятия, фРТ-сигналы разных людей кардинально отличаются друг от друга. Попытка загрузить данные фРТ испытуемого А в модель, обученную на испытуемом Б, приведет к получению нечитаемого цифрового шума. Из-за этого исследователям пришлось обучать персональные, изолированные модели под каждого конкретного человека. Весь обучающий выбор для одного индивида состоял всего из нескольких тысяч пар «картинка — реакция мозга», а тестовый набор включал лишь 982 изображения.

По мнению Абрахама, добиться выдающейся способности к обобщению (генерализации) на столь микроскопическом объеме данных удалось за счет использования «богатых предобученных латентных пространств» CLIP и Stable Diffusion. Нейросети MedArch не нужно было учиться понимать устройство физического мира, распознавать контуры предметов или логику освещения с нуля. Маленькой промежуточной MLP-сети требовалось лишь нащупать мостик — правила перевода 15 000 чисел в уже готовую, структурированную систему координат смыслов, созданную ИИ-гигантами на основе миллиардов веб-страниц.

Финальная версия рабочей модели насчитывает около 940 миллионов параметров, что сопоставимо с масштабом языковой модели GPT-2. Весь процесс обучения занял всего несколько часов на одной стандартной видеокарте NVIDIA A100 при размере пакета (batch size) в 32 единицы и длительности в 240 эпох. На этапе инференса (использования готовой модели) расшифровка мыслей и выдача готовой картинки происходят практически мгновенно — менее чем за секунду.

🔮 Будущее нейробиологии: от калибровки к клинической практике 1:03:11

Необходимость тренировать ИИ под каждого человека отдельно существенно ограничивает масштабирование технологии. Чтобы преодолеть этот барьер, команда MedArch под операционным руководством д-ра Пола Скотти сейчас разрабатывает фундаментальную модель для фРТ (Foundation Model for fMRI). Идея состоит в том, чтобы обучить гигантскую нейросеть на огромном количестве разнородных фРТ-датасетов от сотен разных людей, заставив ее сформировать универсальное скрытое пространство человеческого мозга.

По прогнозам Танишка Мэтью Абрахама, в будущем это позволит свести настройку системы к быстрой персональной калибровке: новому пользователю достаточно будет показать всего около 5 эталонных картинок внутри томографа, чтобы универсальная модель мгновенно подстроилась под особенности его биологии и геометрию головы. Впрочем, определение того, какими именно должны быть эти 5 идеальных калибровочных изображений, остается открытым научным вопросом.

Что касается перспектив создания портативных потребительских гаджетов для «чтения мыслей», гость подкаста настроен скептически и указывает на жесткие физические ограничения аппаратного обеспечения. Технология фРТ жестко привязана к громоздким, тяжелым и сверхмощным магнитам, которые физически невозможно упаковать в формат носимого устройства. Популярная альтернатива в виде электроэнцефалографии (ЭЭГ), фиксирующая электрическую активность с поверхности скальпа, легко поддается миниатюризации, но имеет фатальный недостаток. ЭЭГ обладает великолепным временным разрешением, но ее пространственное разрешение бесконечно хуже, чем у фРТ. Если фРТ оперирует двухмиллиметровыми кубами, то ЭЭГ видит активность мозга лишь огромными размытыми областями. По мнению Абрахама, извлечь из сигналов ЭЭГ данные, достаточные для детализированной реконструкции образов, в ближайшие годы не удастся, пока инженеры не совершат революционный прорыв в создании принципиально новых сенсоров.

Тем не менее, в краткосрочной перспективе технология найдет массовое применение в медицине и клинических исследованиях. Выделяются следующие перспективные направления:

Мониторинг дегенеративных процессов: ученые смогут отслеживать, как постепенно деградирует или видоизменяется зрительное восприятие у пациентов с тяжелыми неврологическими заболеваниями по мере прогрессирования недуга.
Объективная диагностика психических расстройств: по словам Абрахама, у людей с клинической депрессией ментальные образы и их нейросетевые реконструкции могут выглядеть иначе — например, быть визуально более блеклыми, тусклыми или иметь специфические искажения структуры.
Связь с запертыми внутри собственного тела: интерфейс может стать единственным окном в мир для пациентов, находящихся в коме или полностью парализованных, позволяя транслировать их внутренние мысленные образы напрямую на экран компьютера.

Исследование «Reconstructing The Mind's Eye» примечательно и тем, как именно оно создавалось. Проект был реализован в децентрализованной, открытой среде на базе сообщества MedArch. Ученые со всего мира координировали свои действия через чаты и еженедельные созвоны в Discord, а весь исходный код с самого начала выкладывался в публичный репозиторий на GitHub. Вычислительные мощности для экспериментов были безвозмездно предоставлены компанией Stability AI. Этот прецедент, как считает Абрахам, наглядно доказывает: эпоха, когда передовая наука двигалась исключительно внутри закрытых лабораторий элитных университетов, уходит в прошлое — сегодня энтузиаст с ноутбуком, находясь в любой точке земного шара, способен внести вклад в создание технологий будущего.