Почему глубокие нейросети и мозг формируют одинаковые репрезентации

The TWIML AI Podcast 5,2 тыс. 47 мин 7 мин 28.08.2023
Главное

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон беседует с Софией Санборн (Sophia Sanborn), исследователем из Калифорнийского университета в Санта-Барбаре. Темой глубокого научного разговора стала удивительная универсальность представлений данных: почему искусственные нейросети и биологический мозг в процессе обучения приходят к одним и тем же математическим структурам. Санборн объясняет этот феномен через призму теории групп, принципа инвариантности и конвергентной эволюции систем, работающих в условиях жестких физических ограничений.

🧠 От аналитической философии к физике вычислений 0:00

Путь Софии Санборн в вычислительную нейробиологию оказался междисциплинарным и начался с изучения аналитической философии. Живые системы принципиально отличаются от неживых тем, что они способны репрезентировать (представлять) внешний мир, преобразуя фотоны на сетчатке или колебания давления воздуха в улитке уха в богатый перцептивный и когнитивный опыт.

В попытках формализовать понятие интеллекта Санборн изначально опиралась на традиции западной аналитической философии, которая, в отличие от поэтичной континентальной философии, стремилась к строгой математической точности. Этот подход напрямую связан с истоками компьютерных наук и трудами мыслителей первой половины XX века:

Однако символьный уровень абстракции не давал ответа на вопрос о том, как именно информация кодируется на уровне физики и биологического субстрата. Это побудило Санборн сменить вектор исследований и в 2015 году, в эпоху бурного зарождения глубокого обучения после триумфа нейросети AlexNet в 2012 году, присоединиться к Редвудскому центру теоретической нейробиологии в Беркли. Там физики, математики и биологи совместно изучали фундаментальные принципы нейронных вычислений.

⚡ Принцип эффективности и детекторы зрительных признаков 7:00

Одним из главных источников вдохновения для гостьи послужили работы её научного руководителя Бруно Ольсхаузена, выполненные в 1990-х и начале 2000-х годов. Они опирались на классическое открытие нейробиологов Дэвида Хьюбела и Торстена Визеля, которые в 1950-х годах случайно обнаружили в первичной зрительной коре (V1) кошек нейроны-детекторы признаков, реагирующие на края и линии определенной ориентации и ширины.

Долгое время существование этих структур объяснялось эмпирически: мир просто состоит из объектов с контурами. Однако Бруно Ольсхаузен предложил фундаментальный объяснительный принцип — концепцию эффективного (разреженного) кодирования. Биологические организмы жестко ограничены в ресурсах, а генерация каждого электрического импульса (спайка) нейроном сопряжена с серьезными метаболическими затратами. Следовательно, мозг оптимизирован передавать максимум информации при минимальной активности: большинство его нейронов почти всегда выключены.

Ольсхаузен создал простую однослойную искусственную нейросеть с линейным преобразованием и нелинейной функцией активации, заставив её кодировать природные изображения (деревья, пейзажи). При наложении жесткого условия разреженности (минимизации частоты спайков) сеть в процессе обучения сама сформировала точно такие же детекторы ориентированных граней, как в мозге кошек. По словам Санборн, алгоритм сжатия и понижения размерности данных привел к решению, которое биологическая эволюция вырабатывала миллионы лет.

🧬 Загадка универсальности: почему ИИ копирует биологию 13:00

Данное явление демонстрирует свойство универсальности, которое постоянно воспроизводится как в нейробиологии, так и в машинном обучении. Исследования в области интерпретируемости (mechanistic interpretability) показывают, что если взять различные сверточные нейросети, обученные на совершенно разных датасетах и для разных задач (например, классификации или генерации изображений), в них неизменно возникают одни и те же базовые признаки.

Математически поведение этих нейронов-детекторов идеально описывается функциями Габора (вейвлетами) — двухмерными плоскими волнами Фурье, локализованными в пространстве с помощью окна Гаусса. При перемещении объекта через такое рецептивное поле активность нейрона колеблется по синусоидальному закону.

Интересно, что этот математический аппарат создавался учеными в отрыве от биологии:

Санборн считает это классическим примером конвергентной эволюции. Инженеры искали оптимальный способ обработки сигналов, и биология решала ту же самую задачу. Ограничения физического мира заставили обе системы прийти к идентичному математическому базису.

📐 Преобразование Фурье сквозь призму теории групп 19:31

По мнению Софии Санборн, за эффективностью сжатия данных кроется еще более глубокая математика — абстрактная алгебра и теория групп. В физике и геометрии под группой понимается строго определенный набор трансформаций (таких как сдвиг, масштабирование или трехмерное вращение) и правил их композиции. Чтобы множество операций считалось математической группой, оно должно отвечать четырем аксиомам:

  1. Ассоциативность операции.
  2. Наличие нейтрального (тождественного) элемента, который оставляет объект неизменным.
  3. Наличие обратного элемента для каждой трансформации (возможность «отменить» действие).
  4. Замкнутость группы (композиция любых двух трансформаций из набора дает трансформацию из этого же набора).

Примером может служить специальная ортогональная группа $SO(3)$, описывающая все возможные вращения в трехмерном пространстве с помощью матриц.

Связь между преобразованием Фурье и теорией групп заключается в том, что проецирование сигнала на синусоиды — это перенос абстрактной группы сдвигов (трансляций) в поле линейной алгебры. Математически это называется проецированием на неприводимые представления группы сдвигов.

Благодаря теореме о сдвиге преобразование Фурье обладает свойством эквивариантности: сдвиг входного сигнала приводит к строго пропорциональному изменению фазы на выходе. Для мозга это критически важно: распределенная и сложная попиксельная динамика смещения объекта по сетчатке глаза превращается в непрерывное и легко моделируемое изменение состояния конкретного нейрона.

🚀 Биспектральные нейронные сети: математически точная инвариантность 25:37

На международной конференции по представлениям обучения (ICLR) София Санборн совместно с коллегами представила статью под названием «Bispectral Neural Networks». В этой работе исследователи предложили сменить парадигму: вместо принципа эффективности (сжатия) использовать в качестве главной движущей силы обучения принцип инвариантности.

Перед живым организмом и перед нейросетью стоит фундаментальная задача — распознать объект (например, хищника или цифру), независимо от его положения, угла поворота или масштаба. Популярное сегодня контрастное обучение (contrastive learning) пытается решить эту задачу эмпирически, требуя от сети выдавать одинаковый вектор для разных ракурсов одного объекта. В современных архитектурах инвариантность часто достигается операциями пулинга (выбора максимума или усреднения), однако пулинг необратимо уничтожает внутреннюю структуру сигнала. По словам Санборн, если хаотично перемешать пиксели изображения, среднее значение останется прежним, что открывает огромные возможности для состязательных (adversarial) атак на ИИ.

В качестве альтернативы авторы использовали математический объект высшего порядка — биспектр (bi-spectrum), который полностью нейтрализует фазовые сдвиги, обеспечивая абсолютную инвариантность к трансформациям, но при этом сохраняет целостность и полноту структуры сигнала.

Эксперимент строился следующим образом:

Результат оказался поразительным: в процессе оптимизации веса сети идеально и канонично воссоздали двухмерный базис Фурье. Более того, на основе выученных весов исследователям удалось математически точно реконструировать таблицу Кэли (матрицу композиции элементов группы, напоминающую таблицу умножения для абстрактной алгебры) исходной группы трансформаций. Сеть смогла без учителя «выучить» законы геометрии окружающего мира.

🌐 Геометрическое глубокое обучение: «двустороннее движение» науки 34:42

Данное исследование развивает идеи геометрического глубокого обучения (geometric deep learning), сформировавшегося в последние годы. Сверточные нейросети (CNN) столь успешны в обработке изображений именно потому, что в их архитектуру изначально «вшито» допущение об эквивариантности к двухмерным сдвигам. Геометрическое глубокое обучение пытается перенести этот принцип на другие топологические пространства. К примеру, для анализа данных на сфере (панорамные снимки, глобальные климатические карты) классическая свертка заменяется операцией из трехмерной группы вращений.

Однако классические подходы всегда требуют, чтобы разработчик заранее знал и жестко запрограммировал группу трансформаций. В реальности законы искажения данных часто бывают слишком экзотическими или неизвестными a priori. Из-за этого инженерам приходится прибегать к аугментации данных (искусственному вращению и масштабированию картинок при обучении), что Санборн считает несовершенным и ограниченным костылем. Подход биспектральных сетей позволяет системе самостоятельно извлекать структуру геометрических преобразований из самих данных.

Ведущий Сэм Черрингтон вспомнил беседу пятилетней давности с Ниной Миолан (Nina Miolane), которая приводила пример из медицинской сферы: для точного анализа трехмерных томографических снимков бьющегося сердца критически важно учитывать риманову геометрию и кривизну органа. Санборн согласилась с этой аналогией, подчеркнув, что внедрение явных геометрических априорных допущений не просто повышает точность ИИ, но и отражает то, как устроен наш мозг.

В финале беседы спикеры затронули тему «двустороннего движения» между ИИ и нейробиологией. Черрингтон отметил, что гипотеза о параллельной эволюции под воздействием физических ограничений — это, пожалуй, самый сильный аргумент в пользу биологической обоснованности нейросетей. При этом Санборн призвала к осторожности, напомнив знаменитую метафору из авиастроения: если бы авиаконструкторы слепо копировали биологию, они строили бы самолеты с перьями. Искусственные системы сильно абстрагированы от биологических клеток, но подчинение общим фундаментальным законам математики неизбежно ведет их к одинаковым архитектурным ответам.

💬 Цитаты

«Биологические системы принципиально ограничены в ресурсах... каждый спайк нейрона обходится метаболически дорого.»

София Санборн 07:39

«Инженеры разработали вейвлеты, и биология также создала вейвлеты параллельным путем.»

София Санборн 19:03
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Разреженное кодирование
Метод представления информации, при котором большинство элементов системы (нейронов) остаются неактивными большую часть времени для экономии энергии.
Эквивариантность
Свойство математической функции, при котором определенное преобразование входных данных приводит к точно такому же преобразованию результата.
Инвариантность
Свойство системы оставаться неизменной (сохранять выходные значения) при любых трансформациях входных данных, например, при сдвигах или вращении.
Таблица Кэли
Квадратная таблица, описывающая структуру конечной математической группы путем отображения результатов бинарных операций между всеми ее элементами.
Биспектр
Статистический инструмент высшего порядка, инвариантный к сдвигам фазы, используемый для сохранения целостности структуры сигнала при устранении трансформаций.
📊 Цифры
🗓 Хронология
  1. 1950-е Дэвид Хьюбел и Торстен Визель экспериментально открывают детекторы ориентации граней в зрительной коре кошек.
  2. 1990-е — начало 2000-х Бруно Ольсхаузен формулирует теорию разреженного эффективного кодирования природных изображений.
  3. 2012 год Выход нейросети AlexNet знаменует начало современной эпохи глубокого обучения.
  4. 2015 год София Санборн переходит в Редвудский центр теоретической нейробиологии при Калифорнийском университете в Беркли.
⚖️ Другая сторона
Искусственный интеллект София Санборн The TWIML AI Podcast биспектральные нейросети геометрическое глубокое обучение теория групп