Как глубокое обучение помогает нейробиологам понять механизмы работы мозга

Как глубокое обучение помогает раскрыть тайны человеческого мозга и почему современные нейросети оказываются так похожи на биологические структуры? В данном материале подробно разбирается интервью ведущего Янника Килчера с известным нейробиологом Патриком Мино. Собеседники обсуждают последние прорывы в области самообучающихся моделей, принципы разделения зрительных потоков и перспективы создания воплощенного искусственного интеллекта.

🧠 Пересечение нейробиологии и искусственного интеллекта 0:00

Патрик Мино получил докторскую степень (PhD) в Университете Макгилла и прошел постдокторантуру в Калифорнийском университете в Лос-Анджелесе (UCLA). В своей карьере он успел поработать независимым исследователем, дата-сайентистом в Google, а также инженером интерфейсов «мозг-компьютер» в Facebook Reality Labs. Сфера его научных интересов лежит строго на стыке вычислительной нейробиологии и машинного обучения.

Путь Патрика Мино в вычислительную нейробиологию начался с физики. По его собственным словам, после бакалавриата он осознал, что не хочет всю жизнь заниматься теорией струн, так как для формулирования интересных вопросов там требуется слишком глубокий уровень академической подготовки. В то же время в нейробиологии многие фундаментальные вопросы лежат на поверхности, но остаются неразгаданными. В качестве примера ученый приводит феномен сна: до сих пор нет точного и исчерпывающего ответа на вопрос, зачем именно он нужен организму.

Когда Патрик Мино начинал свою диссертацию в 2008 году, глубокое обучение еще не было мейнстримом. Переломным моментом, продемонстрировавшим миру потенциал глубоких сетей, стало появление датасета ImageNet в 2012 году. На защите своей диссертации Патрик Мино показывал примеры биологических нейронов в нижней временной (инфратемпоральной) коре, которые отвечают за распознавание объектов независимо от освещения, угла поворота и масштаба, и утверждал, что человечество не умеет создавать компьютеры с такими свойствами. Однако уже через год, с появлением архитектуры AlexNet, это утверждение полностью потеряло актуальность.

Зрительная информация, попадая на сетчатку глаза, кодируется в простых форматах (разница яркости, временные изменения) и передается через латеральное коленчатое тело в первичную зрительную кору ($V1$) в затылочной части мозга. Оттуда обработка разделяется на два параллельных иерархических потока:

Вентральный поток (ventral stream) — отвечает за распознавание объектов и форм. Именно его функции во многом моделируют современные сверточные сети типа ResNet-50, обученные на ImageNet.
Дорсальный поток (dorsal stream) — отвечает за восприятие движения и пространственную ориентацию. Нейроны в этой зоне (например, в средней временной области MT) в 80–90% случаев реагируют исключительно на движущиеся стимулы, полностью игнорируя текстуру и форму объектов.

🔍 Вентральный поток и триумф самообучающихся моделей 21:13

Долгое время нейробиологи пытались понять, насколько принципы работы искусственных нейросетей близки к механизмам живого мозга. Как отмечает Патрик Мино, исследования 2014 года (в частности, работы лабораторий Джима ДиКарло и Нико Кригескорте) выявили поразительную корреляцию: сети, которые показывают более высокие результаты на датасете ImageNet, точнее объясняют и предсказывают паттерны активации биологического мозга.

Для оценки того, насколько модель «объясняет мозг», ученые используют два основных метода:

Регрессионный анализ (regression-based approach) — когда активации промежуточных слоев нейросети (например, после четвертого слоя ResNet-50) сопоставляются с реакциями мозга на те же изображения с помощью гребневой регрессии (ridge regression). Классическая линейная регрессия обычно не справляется из-за высокого уровня шума в нейробиологических данных.
Анализ репрезентативного сходства (representational similarity analysis) — сравнение матриц сходства ответов биологических систем и искусственных моделей на различные стимулы.

В качестве источников нейробиологических данных выступают функциональная МРТ (фМРТ), магнитоэнцефалография (МЭГ) и прямые инвазивные записи с электродов, вживляемых пациентам с тяжелыми формами эпилепсии во время хирургических операций.

Главным недостатком классического глубокого обучения Патрик Мино считает опору на контролируемое обучение (supervised learning) с миллионами размеченных картинок. По мнению гостя, этот подход биологически неправдоподобен, поскольку родители не ходят за младенцем, непрерывно повторяя названия предметов каждую секунду в течение нескольких лет. Человеческий мозг учится без учителей, используя внутренние репрезентации.

В 2021 году произошел важный прорыв: независимые исследования команд из Гарварда и Массачусетского технологического института (MIT), проведенные под руководством Талии Конкл, показали идентичные результаты. Они установили, что самообучающиеся (self-supervised) и бесконтрольные (unsupervised) модели объясняют данные активации одиночных нейронов и фМРТ вентрального потока так же хорошо или даже лучше, чем supervised-модели.

Среди алгоритмов самообучения наилучшие результаты в сопоставлении с мозгом демонстрирует архитектура SimCLR, а также метод локальной агрегации (Local Aggregation), хотя точные причины этого превосходства, по признанию Патрика Мино, до конца не ясны. В то же время гость подчеркивает, что в самом ImageNet скрыты мощные структурные априорные данные (structural priors): фотографы обычно помещают ключевой объект в центр кадра, что сильно влияет на то, какие признаки выучивает модель.

🛸 Дорсальный поток, навигация и эго-перспектива 29:53

Если вентральный поток неплохо моделируется стандартными сверточными сетями, то с дорсальным потоком (восприятие движения) ситуация оказалась намного сложнее. Патрик Мино рассказал о собственном исследовании этой проблемы, которое он провел во время пандемийного локдауна.

Первоначально ученый протестировал готовые модели из библиотеки TorchVision, обученные на распознавание видео (датасет Kinetics 400, где нейросетям нужно отличать жонглирование от катания на уницикле). Эти сети используют трехмерные (пространственно-временные) свертки. К удивлению исследователя, их внутренние признаки оказались абсолютно непригодны для объяснения активности мозга. Несмотря на то, что модели тренировались на суперкомпьютерах сутками с использованием 16 GPU параллельно и отлично решали свою задачу, они не выстраивали репрезентации, схожие с биологическими.

Этот факт, как подчеркивает Патрик Мино, опровергает старый скептический аргумент о том, что любая нейросеть, обученная на пространственно-временных видеоданных, автоматически станет похожа на мозг. Для дорсального потока критически важен характер задачи. Основная функция этой зоны мозга — навигация в пространстве.

Патрик Мино привел в пример зону MST (middle superior temporal), нейроны которой получают как зрительную информацию (оптический поток), так и вестибулярные сигналы от внутреннего уха, отвечающие за ускорение и баланс. Сбой в этой системе вызывает вертиго (чувство головокружения). Нейроны MST селективны к сложным типам движения: вращению, расширению поля зрения и спиралям.

Чтобы воссоздать этот механизм, Патрик Мино применил среду симуляции дронов AirSim на движке Unreal Engine. Он обучил 3D-ResNet предсказывать параметры собственной траектории движения (повороты, смещения, ускорения) на основе эгоцентрического видеоряда.

Результаты оказались впечатляющими:

Внутренние слои обученной нейросети стали спонтанно демонстрировать селективность к пространственному сдвигу (translation), независимо от фоновой текстуры.
В более глубоких слоях появились фильтры, реагирующие на сложные спиральные паттерны, в точности повторяя свойства нейронов реальной зрительной коры.

На вопрос Янника Килчера о том, указывает ли это на необходимость создания «воплощенного» (embodied) искусственного интеллекта, Патрик Мино ответил согласием. По мнению гостя, младенец в процессе развития выступает активным агентом: он сам выбирает, куда повернуться и на что посмотреть, связывая свои моторные планы со зрительными изменениями. Это в корне отличается от пассивного поглощения готовых наборов данных вроде ImageNet.

⚖️ Принцип нарушенной симметрии и разделение зрительных потоков 42:11

Почему эволюция создала именно два зрительных потока, а не один, четыре или восемь? Ответ на этот вопрос исследовал коллега Патрика — Шахаб (Shahab), первый автор совместной работы, изучавший принципы самоорганизации вычислительных систем.

В исследовании использовалась сеть контрастивного прогностического кодирования (CPC, Contrastive Predictive Coding) — одна из форм самообучения, где модель пытается отличить истинные кадры будущего от ложных, «придуманных» вариантов. Ученые анализировали, как ведет себя сеть при добавлении изолированных подпотоков каналов обработки.

Патрик Мино провел историческую параллель со знаменитой статьей про AlexNet 2012 года. Из-за ограничений видеокарт того времени (они были слишком маленькими) авторы были вынуждены искусственно разделить архитектуру на две изолированные ветки, которые обсчитывались на разных GPU и общались лишь на поздних стадиях.

В процессе обучения AlexNet произошел удивительный феномен спонтанного нарушения симметрии (symmetry breaking):

Фильтры на одном GPU стали исключительно селективными к цвету.
Фильтры на втором GPU превратились в черно-белые, реагирующие только на текстуры и перепады яркости.

Как отмечает Патрик Мино, разработчики AlexNet случайно наткнулись на глубокий закон природы. Изначально веса инициализируются случайным шумом, что выводит систему из равновесия, и под воздействием градиентного спуска ветки специализируются.

Аналогичный эффект Шахаб обнаружил в CPC-сетях, обученных на видео: при создании «файрвола» между двумя наборами фильтров один из них спонтанно становился похож на вентральный поток мыши (реагируя на форму), а второй — на дорсальный (реагируя на движение). В биологическом мозге, по мнению Патрика Мино, также существует врожденная структурная асимметрия, которая заставляет систему каждый раз развиваться по одинаковому сценарию, разделяя зоны восприятия.

🖼️ Мультимодальность и загадочные «клетки концептов» 49:30

Особое удивление у нейробиологов вызывает модель CLIP от OpenAI. Внутренние визуализации этой сети, выполненные Крисом Олахом и Челси Восс, выявили структуры, поразительно напоминающие так называемые «клетки концептов» в человеческом гиппокампе.

Патрик Мино напомнил классический эксперимент с обнаружением «нейрона Дженнифер Энистон» у пациентов с тяжелой формой эпилепсии, которым вживляли электроды в гиппокамп. Ученые обнаружили клетку, которая возбуждалась в ответ на любые упоминания актрисы: на показ ее фотографии, на написанное текстом имя «Jennifer Aniston» и, предположительно, отреагировала бы даже на звуковую заставку сериала «Друзья». Это пример абстрактной мультимодальной репрезентации (или «нейрона бабушки»).

CLIP устроен схожим образом — он связывает текст и изображения в едином латентном пространстве. По словам Патрика Мино, CLIP способен объяснить данные активности гиппокампа человека значительно лучше, чем любая другая существующая модель глубокого обучения, причем отрыв от второго места огромен. Почему именно CLIP демонстрирует столь выдающиеся результаты в моделировании высших когнических зон, ученые до конца не понимают.

Гость и ведущий сошлись во мнении, что мультимодальность является ключом к дальнейшему развитию ИИ, поскольку реальный мир никогда не предоставляет живому организму изолированных стимулов. Патрик Мино привел пример из жизни: младенцы обожают шумные, пищащие игрушки (что сводит с ума родителей) именно потому, что их мозг требует мультимодального подкрепления для выстраивания причинно-следственных связей (causal inference) о том, что происходит при ударе одного предмета о другой.

📈 Теория манифольдов против дискретных признаков 56:16

Традиционно в вычислительной нейробиологии доминирует теория многообразий (manifold theory). Она утверждает, что активность миллионов отдельных нейронов избыточна и на самом деле они проецируют скрытое латентное пространство гораздо меньшей размерности (например, всего 5 измерений вместо 100 тысяч). При этом индивидуальные оси вращения не имеют значения — важна лишь геометрия самого манифольда, а отдельные нейроны демонстрируют так называемую смешанную селективность (mixed selectivity), реагируя на все подряд.

Однако, как заявляет Патрик Мино, нейробиологи очень любят «именованные оси» (labeled axes) — когда конкретная клетка четко отвечает за один понятный параметр.

Новое исследование, упомянутое в статье, бросает вызов классическому манифольдному подходу. Ученые обучили специальный вариационный автокодировщик ($\beta$-VAE) с увеличенным весом на слагаемое расхождения Кульбака — Лейблера (KL-divergence). Такой подход заставляет сеть искать максимально распутанные, независимые признаки (disentangled representations). В результате отдельные оси латентного пространства стали отвечать за конкретные понятные свойства лиц: улыбку, наличие усов, монобровь или форму носа.

Эксперимент показал, что репрезентации такой $\beta$-VAE демонстрируют строгое покомпонентное (one-on-one) совпадение с нейронами в зоне распознавания лиц инфратемпоральной коры мозга. Мозг стремится к такому распутыванию, по мнению гостя, из-за энергетических ограничений и необходимости иметь эффективный код в условиях сильного пуассоновского шума биологических нейронов. Это указывает на то, что мозг строит внутреннюю независимую факторную модель реальности, подобную конструктору, где можно независимо менять отдельные детали.

🚀 Будущее нейро-ИИ и биологическое правдоподобие 1:09:20

Патрик Мино сослался на схему исследовательницы Джесс Томпсон (Jess Thompson), описывающую четыре этапа зрелости моделей на стыке ИИ и нейробиологии:

Выполнение задачи (Task performance) — веха была достигнута с ImageNet в 2012 году.
Объяснение нейрональной активности (Accounts for neural activity) — подтверждено в исследованиях 2014 года.
Биологическое правдоподобие (Biological plausibility) — текущий этап развития. В ближайшие годы ученые будут внедрять в ИИ реалистичные механизмы: закон Дейла (экситаторные нейроны образуют только возбуждающие связи, ингибиторные — только тормозящие), временную динамику и замену классического обратного распространения ошибки (backprop) на биологические аналоги.
Способность к эволюции (Could have evolved) — финальный рубеж. По прогнозу Патрика Мино, в ближайшем будущем наука вплотную займется моделированием того, как мозг эволюционно «загружает сам себя в существование».

Важную роль в антропогенезе и обучении, по мнению гостя, сыграл феномен слабого контроля (weak supervision) со стороны родителей, а также эволюция рук и жестов. Существует гипотеза, что жестовый язык предшествовал появлению членораздельной речи, поэтому в человеческом мозге должны быть зоны, высокоселективные к движениям рук.

Отвечая на вопрос о том, должна ли нейробиология подпитывать архитектуры машинного обучения, Патрик Мино высказал скепсис. По его мнению, изучение мозга критически важно для медицины и понимания человека, но ИИ может развиваться своими путями. В мозге полно неоптимальных костылей (kludgy solutions). Например, сетчатка человеческого глаза вывернута задом наперед, из-за чего свет сначала проходит сквозь слой сосудов и аксонов (у осьминогов она расположена правильно, и это им никак не мешает).

Единственной технологией, которую ИИ стоит перенять у природы ради колоссальной экономии энергии, гость назвал импульсные нейронные сети (spiking neural networks), способные снизить энергопотребление моделей в 1000–10000 раз. При этом Патрик Мино подчеркнул, что заниматься такими исследованиями можно даже без огромных бюджетов: свою собственную научную работу он рассчитал и обучил на домашнем ПК с одной старой видеокартой GTX 1080.

🎓 Демократизация науки: Neuromatch Academy 1:18:44

В завершение беседы Патрик Мино рассказал о своей роли в создании Neuromatch Academy — бесплатной летней онлайн-школы вычислительной нейробиологии. Инициатива родилась в начале пандемии, когда группа ученых решила записать несколько лекций для студентов.

Эффект превзошел все ожидания организаторов:

В первый же год было подано более 2000 заявок со всего мира.
Первый поток успешно закончили 1700 студентов под руководством 200 ассистентов (TA).
На второй год проект вырос в два раза.

Патрик Мино, занимавший пост технического директора (CTO) школы на ее старте, отметил, что этот опыт стал одним из самых стрессовых в его жизни, но позволил объединить за партами и общим учебным планом студентов из развивающихся стран и элитных университетов Лиги плюща. Все учебные материалы академии находятся в открытом доступе, и гость призвал специалистов по машинному обучению смело приходить в нейробиологию, поскольку это абсолютно открытое поле для новых публикаций и открытий.