Геометрическое глубокое обучение: как симметрия объединяет нейросети

Популярность современных нейросетей-трансформеров обусловлена не их концептуальным превосходством, а банальным выигрышем в «аппаратную лотерею» совместимости с современными видеокартами. Преодолеть этот тупик призвано геометрическое глубокое обучение, которое переосмысляет ИИ через фундаментальные законы симметрии и разделения масштабов. Эта математическая унификация на основе Программы Эрлангена позволяет эффективно решать сложнейшие задачи — от поиска новых антибиотиков и проектирования процессоров Google до дешифровки языка кашалотов.

🧩 Геометрическое объединение ИИ: от теории множеств до Программы Эрлангена 0:00

Обучение на множествах и пермутационная инвариантность 1:59

Современное машинное обучение оперирует огромными массивами высококачественных данных, стремясь построить богатые пространства функций, способные интерполировать распределения точек. Однако для эффективного поиска оптимальных алгоритмов моделям необходимы сильные априорные предположения — индуктивные смещения (inductive biases). Великий немецкий математик Герман Вейль когда-то отмечал, что симметрия является тем средством, с помощью которого человечество на протяжении веков пыталось постичь и создать порядок, красоту и совершенство. В контексте глубокого обучения учет низкоразмерной геометрии физического мира — таких как структуры сеток в изображениях или последовательности во времени — стал ключевым фактором успеха нейросетей благодаря соблюдению базовых симметрий сдвига или вращения.

Особый интерес исследователей вызывает обучение на множествах, где входные данные принципиально лишены естественного порядка. Майкл Бронштейн (Michael Bronstein) и его коллеги подчеркивают, что хаотичное на первый взгляд дублирование архитектур в индустрии часто связано с поиском оптимальных математических основ для обеспечения пермутационной инвариантности (независимости от перестановки элементов). Фабиан Фукс из Оксфордского университета и Эдвард Вагстафф недавно подробно разобрали эту проблему. Главный вызов здесь заключается в том, как спроектировать алгоритмы глубокого обучения, которые оставались бы строго инвариантными к семантически эквивалентным перестановкам, но при этом сохраняли бы максимальную выразительную способность (expressivity).

Удовлетворительное математическое объяснение дает фреймворк, известный как пулинг Яноши (Janossy pooling). Этот подход предполагает генерацию всех подмножеств размера $k$ ($k$-tuples) из исходного множества и последующее усреднение целевой функции по этим перестановкам. Вместо вычисления неподъемного факториала $N!$ комбинаций элементов, пулинг Яноши сводит вычислительную сложность к формуле $\frac{N!}{(N-k)!}$, что при небольших значениях $k$ становится вполне реализуемой задачей.

Выбор параметра $k$ напрямую определяет архитектуру модели:

При $k = 1$ мы получаем конфигурацию, эквивалентную классической архитектуре Deep Sets.
При $k = 2$ математика пулинга Яноши в точности воспроизводит механизм self-attention (самовнимания), лежащий в основе трансформеров.

Максимально выразительная, но и самая вычислительно дорогая конфигурация достигается при $k = N$, когда учитываются взаимодействия всех высших порядков между элементами. Чтобы обойти проблему стоимости вычислений при больших $ных$, исследователи применяют аппроксимированную пермутационную инвариантность, при которой из полного набора перестановок берется лишь небольшая случайная выборка, что все равно позволяет получать отличные результаты на практике. Позже в беседе эксперты упомянули, что классическое высокоразмерное обучение неизбежно наталкивается на проклятие размерности, преодолеть которое помогают лишь строгие геометрические допущения о регулярности и гладкости пространства функций.

Программа Эрлангена и великое геометрическое единение 16:08

В последнее десятилетие глубокое обучение произвело настоящую революцию в науке о данных, сделав возможным выполнение задач, которые ранее считались недостижимыми. Однако оборотной стороной этого прогресса стало появление огромного «зоопарка» разнородных нейросетевых архитектур для каждого отдельного типа данных. При отсутствии единых фундаментальных принципов исследователи регулярно сталкиваются с проблемой переизобретения и ребрендинга одних и тех же концепций.

Майкл Бронштейн предлагает выход из этого теоретического тупика через геометрическую унификацию в духе Программы Эрлангена. Чтобы осознать масштаб этой идеи, необходимо вернуться в прошлое. Около 300 лет до нашей эры Евклид заложил основы геометрии, опиравшейся на систему постулатов, которая долгое время считалась единственно возможной математической истиной. Однако в 1800-х годах такие математики, как Николай Лобачевский, Янош Бойяи и Бернхард Риман, усомнившись в пятом постулате, вывели новые, внутренне непротиворечивые неевклидовы геометрии — гиперболическую и эллиптическую. Геометрическая наука погрузилась в хаос: каждая школа имела свои правила, законы и терминологию, и ученые не понимали, какая же из геометрий является «единственно верной».

Решение пришло в 1872 году, когда молодой немецкий математик Феликс Клейн возглавил кафедру в баварском Университете Эрлангена. Он предложил революционный манифест, вошедший в историю как Программа Эрлангена. Клейн доказал, что любую геометрию можно полностью описать и классифицировать через призму её инвариантов и симметрий, используя абстрактный язык теории групп. Вместо поиска одной «истинной» геометрии ученые получили универсальный чертеж (blueprint), позволяющий выводить любые геометрические пространства под конкретные задачи.

Влияние Программы Эрлангена вышло далеко за пределы чистой математики:

В физике Эмми Нётер, опираясь на эти идеи, доказала, что фундаментальные законы сохранения напрямую выводятся из непрерывных симметрий природы, что впоследствии легло в основу Стандартной модели элементарных частиц.
В теоретической информатике Программа Эрлангена получила развитие в виде теории категорий, служащей высшей формой абстракции для объединения математических направлений.

Сегодня геометрическое глубокое обучение (Geometric Deep Learning), развиваемое Майклом Бронштейном, Петаром Величковичем (Petar Veličković) и Тако Коэном (Tako Cohen), выступает в роли современной Программы Эрлангена для искусственного интеллекта. Оно базируется на так называемых «5G» геометрических доменов: сетки (grids), группы (groups), графы (graphs), геодезические линии (geodesics) и калибровочные поля (gauges). Проектируя слои нейросетей как локально эквивариантные, ученые получают возможность строго выводить из первых принципов симметрии любые известные архитектуры — от сверточных сетей до графовых моделей и трансформеров. Это не просто метод, а фундаментальный подход, позволяющий ИИ переходить от простой интерполяции данных к осознанной экстраполяции.

🧩 Единый чертеж архитектур ИИ и сила алгоритмического разума 25:16

Геометрический чертеж архитектур глубокого обучения 25:16

В 2020 году индустрия искусственного интеллекта переживала настоящий бум: лавинообразно появлялись все новые и новые архитектуры нейросетей, от сверточных и графовых до трансформеров и LSTM. Однако, как отмечают исследователи, эта эпоха очень напоминала кризис в геометрии XIX века, когда обилие разрозненных концепций требовало радикальной унификации. В ответ на этот вызов Майкл Бронштейн совместно с коллегами предложил единую математическую рамку — «геометрический чертеж» (Geometric Deep Learning Blueprint). Этот фреймворк призван избавить глубокое обучение от репутации набора необоснованных «хаков» и перевести проектирование сетей на рельсы строгих математических принципов. По выражению философа, которое цитирует Бронштейн, «знание принципов легко компенсирует незнание фактов». Ранее в разговоре ученые уже касались того, как геометрический подход помогает преодолеть проклятие размерности, а также упоминали Программу Эрлангена, ставшую историческим прообразом этой унификации.

Тако Коэн, исследователь из Qualcomm AI Research, подробно описывает фундаментальную анатомию этого чертежа, состоящую из нескольких ключевых элементов:

Домен ($\Omega$): Базовое пространство или сетка, на которой определены данные. Это могут быть как регулярные структуры (плоскость изображения), так и неевклидовы объекты (сфера Земли для прогнозирования погоды или вершины графа).
Группа симметрий: Набор преобразований домена, сохраняющих его важные геометрические свойства (например, трехмерные вращения $SO(3)$ для сферы или перестановки вершин для графов).
Пространство сигналов: Данные, которые живут на домене (векторные поля ветров, пиксели или молекулярные свойства), на которые автоматически переносится действие группы симметрий.
Эквивариантные слои: Функции и слои сети, которые уважают структуру симметрии пространства. Если подать на вход трансформированный сигнал, результат работы эквивариантного слоя будет эквивалентен трансформации выхода.

Интересно, что для линейных слоев наиболее общим видом эквивариантных отображений оказываются обобщенные формы сверток, что математически объясняет их невероятную эффективность в ИИ. Завершает этот чертеж операция пулинга или укрупнения (coarsening), которая учитывает геометрическую стабильность и локальность фильтров.

Графовые сети и триумф архитектуры GAT 28:38

Особое место в реализации геометрического чертежа занимает сфера графового представления данных. Майкл Бронштейн, будучи профессором Имперского колледжа Лондона и руководителем отдела графовых исследований в Twitter после покупки его стартапа Fabula AI в 2019 году, признан одним из ключевых популяризаторов этого направления. Долгое время графовые нейросети (GNN) и геометрическое обучение воспринимались как синонимы. Важнейший исторический сдвиг в этой области произошел во время стажировки Петара Величковича в Монреальском институте искусственного интеллекта (MILA), где он работал вместе с Иешуа Бенжио и Адрианой Ромеро.

Перед командой стояла задача обработки биомедицинских данных, расположенных на нерегулярных мешах человеческого мозга. Существующие тогда GNN-архитектуры не справлялись с задачей. Исследователям требовался механизм, способный динамически определять степень влияния различных соседей в графе, сохраняя при этом дух классической свертки изображений. Результатом этой работы стала знаменитая статья Graph Attention Networks (GAT), опубликованная на конференции ICLR в 2018 году. Архитектура GAT, внедрившая механизмы внимания на графах, спровоцировала взрывной рост публикаций: всего через год Величкович, будучи рецензентом, обнаруживал на своем столе по 4–5 работ, развивающих его подход. Это позволило абстрагировать свертку до понятий локальной связности и масштабировать модели для решения задач в биомедицине, материаловедении и дизайне лекарств.

Нейронные алгоритмические рассуждения и ИИ «Системы 2» 32:56

Развивая успех графовых сетей, Петар Величкович, ныне старший исследователь в DeepMind, сосредоточился на концепции нейронных алгоритмических рассуждений (Neural Algorithmic Reasoning). Эта дисциплина пытается объединить лучшие качества двух миров: гибкость глубокого обучения и строгие гарантии классических символьных алгоритмов. Нейросети превосходно справляются с тем, что психолог Даниэль Канеман назвал «Системой 1» — быстрыми, интуитивными задачами восприятия на основе больших объемов данных. Однако ИИ критически не хватает механизмов «Системы 2» — последовательного, жесткого логического рассуждения, способного сохранять стабильность при изменении физических законов или масштаба задачи.

Суть алгоритмических рассуждений заключается в том, чтобы научить нейросеть с максимальной точностью имитировать шаги классических дискретных алгоритмов, а затем встроить этот модуль в общую архитектуру, работающую с «сырыми» перцептивными входами. Такой подход позволяет ИИ успешно экстраполировать решения далеко за пределы обучающей выборки. На практике эти идеи уже находят отклик в работах других ученых: например, Кристиан Сегеди использует абстрактные синтаксические деревья для представления математических теорем и их проекции в евклидово пространство. Бронштейн подчеркивает, что автоматизация логических правил и построение доказательств на компьютере — это не просто инструмент автоматизации, а начало новой эры в науке. Даже в такой глубоко творческой и антропоцентричной сфере, как чистая математика, ИИ становится полноценным ассистентом, и появление первой Филдсовской медали за компьютерное доказательство — лишь вопрос времени. В самом конце фрагмента Бронштейн переходит к математической природе абстрактных сверток и теореме Фурье, что более подробно будет раскрыто в следующей главе статьи.

🌌 Геометрия сверток и архитектурный чертеж 50:20

Понимание математической природы свертки — это ключ к эффективному глубокому обучению. Исторически наиболее интуитивный подход, часто применяемый в сигнальной обработке, заключается в использовании преобразования Фурье: мы переходим в спектральную область, выполняем поэлементное умножение сигнала и фильтра, а затем возвращаемся обратно с помощью обратного преобразования Фурье.

Эта концепция обладает удивительной мощностью обобщения. Она применима не только к евклидовым плоскостям, но и к графам, где роль преобразования Фурье берут на себя операторы, связанные с графовыми лапласианами. Более того, существует глубокая теория обобщенных преобразований Фурье для произвольных групп. В этом случае спектр индексируется не просто целыми числами, как в случае с одномерной линией или двумерной плоскостью, а «неприводимыми представлениями» группы, а сами значения спектра могут быть матричными [51:14–51:53].

Существует и альтернативный, более абстрактный взгляд на свертку: это наиболее общее эквивариантное линейное отображение между определенными группами действий над пространством сигналов [52:18–52:31]. Майкл Бронштейн (Michael Bronstein) подчеркивает, что именно этот математический каркас позволяет нам единообразно работать со скалярными сигналами, векторными полями и другими структурами данных, сохраняя при этом фундаментальные свойства симметрии [52:45–53:11].

Проклятие размерности и регулярность данных 1:05:08

Фундаментальная сложность глубокого обучения заключается в «проклятии размерности». Если мы рассматриваем изображение, состоящее из тысяч пикселей, пространство возможных взаимодействий между ними растет экспоненциально. Без априорного знания о структуре данных мы были бы вынуждены исследовать все эти комбинации, что вычислительно невозможно.

Эффективность глубоких нейронных сетей кроется в том, что они позволяют нам выйти за рамки перебора всех вариантов. Мы внедряем в архитектуру «геометрические приоры», которые резко сужают пространство поиска, фокусируясь на наиболее значимых взаимодействиях — например, между соседними элементами данных [1:05:47–1:06:02].

Универсальная аппроксимация и глубина сетей 58:00

Классическая теорема об универсальной аппроксимации утверждает, что достаточно широкая (но неглубокая) нейронная сеть способна аппроксимировать любую функцию. Однако Майкл Бронштейн отмечает, что эта теорема дает лишь «необходимое, но не достаточное» условие. Она гарантирует выразительную способность, но не говорит о том, насколько эффективно сеть будет обучаться и сколько параметров для этого потребуется.

Именно здесь на первый план выходит глубина архитектуры. Она позволяет не просто достичь необходимого уровня аппроксимации, но сделать это эффективно, улавливая инвариантные свойства природы через композицию уровней. В контексте глубокого обучения универсальная аппроксимация — это скорее «галочка» для архитектора, чем инструмент для количественной оценки сложности обучения.

Разделение масштабов в глубоком обучении 1:06:28

Концепция разделения масштабов — одна из «двух опор», на которых строится эффективная геометрия нейросетей. Она заключается в том, что сложную задачу можно разбить на семейство подзадач, решаемых на разных уровнях абстракции.

Этот подход не является специфическим для ИИ: он лежит в основе физики, химии и биологии, где сложные системы взаимодействующих частиц анализируются на разных иерархических уровнях [1:06:42–1:07:08]. В нейронных сетях это проявляется как обучение через композицию: каждый следующий слой строит более сложные признаки на основе локальных взаимодействий, найденных предыдущими слоями. Ранее в разговоре они также касались темы обучения на множествах и программы Эрлангена как способов унификации этих подходов.

Разделение масштабов дополняет симметрию (эквивариантность): если симметрия помогает модели «понимать» структуру пространства, то разделение масштабов обеспечивает вычислительную эффективность при обработке высокоразмерных данных [1:07:47–1:08:41]. Вместе эти принципы формируют своего рода рецепт — «чертеж» для построения архитектур, способных эффективно обучаться на любых доменах [1:10:37–1:11:41].

🌐 Графовые нейронные сети: от теории симметрии к миллиардным индустриям 1:32:22

Хотя теоретические споры вокруг проклятия размерности, композиционной природы глубоких сетей и их способности к экстраполяции остаются открытыми на глубоком математическом уровне, прикладная сторона геометрического глубокого обучения уже сейчас демонстрирует колоссальные успехи. Реальный мир устроен гораздо сложнее, чем привычные плоские сетки пикселей или линейные последовательности текста. Майкл Бронштейн подчеркивает, что природа крайне редко предоставляет нам данные в виде идеальных картинок или аккуратных цепочек — в большинстве случаев структура окружающего мира хаотична, иррегулярна и лучше всего описывается языком графов. Именно поэтому графовые нейронные сети (GNN) совершили стремительный рывок из академических лабораторий в фундамент крупнейших индустриальных продуктов.

Революция в биоинформатике и кремниевая инженерия 1:32:47

Одним из наиболее прорывных направлений для GNN стала вычислительная химия и биология. Молекулярные соединения по своей сути представляют собой канонический граф, где атомы выступают в роли узлов, а химические связи между ними — в роли ребер. Традиционные подходы к анализу таких структур часто упирались в невозможность эффективной аппроксимации функций на столь сложных объектах. Применение графовых нейросетей позволило в корне изменить ситуацию: с их помощью ученые смогли обнаружить новые мощные антибиотики. Эти молекулы обладали настолько уникальной и нестандартной структурой, что классические алгоритмы и исследователи-люди полностью упускали их из виду.

Помимо микробиологии, графовое представление данных радикально меняет подходы к проектированию сложнейших технических систем:

Графовые нейросети сегодня активно применяются в сфере чип-дизайна (chip design) для оптимизации топологии микросхем.
Именно GNN лежат в основе систем, проектирующих новые поколения специализированных тензорных процессоров Google TPU.

Такой подход позволяет автоматизировать размещение элементов на кристалле, обеспечивая прирост производительности аппаратного обеспечения, что косвенно помогает преодолевать вычислительные барьеры обучения глубоких моделей.

Рекомендательные системы планетарного масштаба 1:33:28

В цифровой индустрии графовые структуры окружают нас повсюду: от связей между пользователями в социальных сетях до сложных паттернов взаимодействия с контентом. Сегодня GNN вышли на уровень работы с миллиардными аудиториями, обеспечивая бесперебойную работу крупнейших рекомендательных платформ мира в реальном времени. Майкл Бронштейн приводит в пример сразу несколько технологических гигантов, чьи ключевые сервисы полностью переведены на рельсы графового обучения:

Визуальная рекомендательная система платформы Pinterest, подбирающая релевантный контент для сотен миллионов пользователей.
Глобальный движок продуктовых рекомендаций гиганта электронной коммерции Amazon.
Интеллектуальная система подбора и персонализации меню в сервисе UberEats.

Внедрение GNN в эти продукты позволило кардинально повысить качество выдачи, поскольку графы способны эффективно улавливать скрытые связи между сущностями, которые невозможно описать стандартными векторами. При этом архитектуры используют встроенную пермутационную инвариантность, снижая потребность в колоссальных объемах аугментации данных.

Оптимизация логистики: как DeepMind и Google Maps сокращают время ожидания 1:34:06

Пожалуй, самым массовым и осязаемым примером работы графового обучения в повседневной жизни стало глобальное обновление картографического сервиса Google Maps. Каждый раз, когда пользователь строит маршрут из точки А в точку Б, алгоритм рассчитывает предполагаемое время прибытия (ETA). Сегодня за точность этого прогноза отвечает специализированная графовая нейросеть, разработанная лабораторией DeepMind в тесном сотрудничестве с командой Google Maps. Дорожная сеть крупного мегаполиса — это классический живой граф с динамически меняющимися весами ребер (пробками, авариями и ремонтными работами).

Эта технология имеет критическое значение не только для миллионов частных автовладельцев, но и для всей мировой B2B-инфраструктуры, завязанной на коммерческое использование Maps API. Компании по совместным поездкам (ride-sharing) и сервисы экспресс-доставки еды напрямую зависят от точности ETA для координации своих флотов. Майкл Бронштейн делится впечатляющей статистикой: внедрение разработанной ими системы в таких сложных мегаполисах, как Сидней, позволило сократить количество неточных прогнозов времени в пути более чем на 40%. Это колоссальный показатель для зрелого продукта.

Подобная точность и способность адаптироваться к быстро меняющимся условиям демонстрирует важнейшее свойство продвинутых архитектур — эффективность использования данных (data efficiency). В то время как классические модели требуют избыточных выборок, геометрические приоры позволяют извлекать максимум пользы из имеющейся информации, что особенно важно в задачах с жесткими физическими ограничениями. Перекликаясь с неевклидовой диффузией и уравнениями в частных производных (PDE), которые команда Бронштейна использует для переосмысления GNN, этот подход доказывает: фундаментальная наука способна напрямую улучшать повседневную жизнь миллиардов людей.

🌐 Неевклидовы пространства и непрерывная геометрия 1:49:10

Хотя графы стали повсеместным инструментом для моделирования сложных систем, Майкл Бронштейн (Michael Bronstein) отмечает важную проблему: большинство стандартных структур, таких как евклидово пространство или многообразия, имеют свои дискретные аналоги, однако сам граф по своей природе остается сугубо дискретным объектом. Поиск способа «непрерывного» взгляда на графы привел к развитию целого направления — сетевой геометрии (network geometry).

Суть этого подхода заключается в интерпретации графов как дискретизации неких непрерывных объектов. Например, безмасштабные сети (scale-free graphs), типичные для социальных структур, могут быть эффективно представлены как графы ближайших соседей в пространствах с гиперболической геометрией.

Преимущества использования неевклидовых пространств, в частности гиперболических, становятся очевидными при работе с иерархическими данными. В социальной сети количество «друзей друзей» растет экспоненциально при увеличении радиуса связей. В евклидовом пространстве объем шара растет лишь полиномиально, что приводит к переполнению («crowding») и требует резкого увеличения размерности эмбеддинга для корректного отображения структуры. Напротив, в гиперболическом пространстве объем растет экспоненциально, что делает его гораздо более естественной средой для представления иерархий. Майкл Бронштейн (Michael Bronstein) подчеркивает: для достижения той же точности эмбеддинга, которую гиперболическое пространство обеспечивает в 10 измерениях, евклидову пространству может потребоваться около 100 размерностей.

🐋 Геометрия языка и коммуникация кашалотов 2:00:15

Существует ли внутренняя геометрия языка, выходящая за рамки стандартных векторных представлений? Исследователи полагают, что успех методов неконтролируемого перевода, основанных на геометрическом выравнивании латентных пространств, объясняется не столько геометрией самого языка, сколько отражением в нём семантики физического мира. Поскольку разные языки описывают одну и ту же реальность, в которой действуют люди, их концептуальные структуры неизбежно оказываются схожими.

Майкл Бронштейн (Michael Bronstein) предлагает взглянуть на эту проблему через призму коммуникации нечеловеческих видов, в частности, кашалотов (проект CETI). Моделирование их концептов представляет сложную задачу, так как среда обитания и опыт этих существ радикально отличаются от человеческих. Например, такие категории, как «намокнуть», могут быть лишены смысла для существа, которое всю жизнь проводит в воде.

В свою очередь, геометрический подход к анализу языка может быть реализован через изучение локальной топологии связей между словами. В рамках теории категорий слова-узлы рассматриваются как «атомы» информации, свойства которых полностью определяются связями-стрелками между ними. Этот подход позволяет выводить сложные свойства системы, анализируя только взаимодействия элементов, даже если сами элементы остаются абстрактными точками. Ранее в разговоре участники также затрагивали тему того, как методы глубокого обучения могут (и должны) приближаться к классическим алгоритмам через изменение структур нейронных сетей или режимов обучения. Таким образом, анализ локальной геометрии слов становится мощным инструментом, объединяющим структурный анализ с семантическим моделированием.

🧩 Графы, трансформеры и «аппаратная лотерея» 2:05:13

Переход от классического машинного обучения к глубокому часто описывают как отказ от жестко заданных правил в пользу гибкости. Однако в области геометрического глубокого обучения этот путь выглядит сложнее: здесь мы ищем баланс между «нейронным эксплуататором», который просто выжимает максимум из имеющихся данных, и «нейронным ученым», способным к истинной экстраполяции. Майкл Бронштейн (Michael Bronstein) подчеркивает, что именно графовые нейронные сети (GNN) становятся тем примитивом, который позволяет ИИ выйти за пределы простого сопоставления образов.

Математическое родство: трансформеры как частный случай графов 2:15:41

В последние годы в научной среде появилось множество работ, пытающихся классифицировать трансформеры: их называли и рекуррентными сетями, и сетями Хопфилда. Однако Майкл Бронштейн предлагает смотреть на них через призму графов. Если мы проанализируем архитектуру трансформера с точки зрения обработки естественного языка (NLP), мы увидим эволюцию представлений о структуре.

В эпоху RNN и LSTM предполагалось, что предложение — это линейный граф, где каждое слово связано только с предыдущим. Но язык устроен иначе: подлежащее и дополнение могут находиться в разных концах длинного предложения. Поскольку оптимальную структуру связей в тексте определить сложно (синтаксические деревья часто зависят от конкретной задачи), исследователи пришли к радикальному решению: предположить, что перед нами полный граф.

В этой модели каждое слово связано с каждым. Если наложить на такой полный граф механизм внимательного распространения сообщений (attentional message passing), мы фактически выведем уравнения трансформера, не используя специфический сленг этой архитектуры. Таким образом, с позиции геометрического Глубокого Обучения, трансформер — это не более чем графовая нейронная сеть на полном графе, обладающая свойством пермутационной эквивариантности.

Критически важным элементом здесь являются позиционные эмбеддинги. Синусоидальные и косинусоидальные волны, которые добавляются к входным данным трансформера, математически связаны с дискретным преобразованием Фурье. Майкл Бронштейн указывает на фундаментальный факт: эти функции являются собственными векторами Лапласиана (eigenvectors of the Laplacian) для линейного графа. По сути, позиционные эмбеддинги — это «легкий намек» модели на то, что узлы графа на самом деле выстроены в цепочку предложения, хотя сама архитектура способна воспринимать куда более сложные топологии.

Феномен аппаратной лотереи: почему побеждают не лучшие, а быстрые 2:23:40

Вопрос о том, почему трансформеры захватили мир, в то время как более теоретически обоснованные графовые модели остаются в тени, подводит нас к концепции «аппаратной лотереи». Это явление описывает ситуацию, когда успех алгоритма предопределен не его математическим превосходством, а тем, насколько удачно он ложится на текущую архитектуру железа.

Майкл Бронштейн приводит историческую параллель с компьютерным зрением. Сверточные нейронные сети (CNN) стали доминирующими не только из-за инвариантности к переносу, но и потому, что они идеально соответствовали архитектуре SIMD (одна инструкция — много данных), на которой строятся графические процессоры (GPU). Мы часто компенсируем отсутствие нужных симметрий в архитектуре (например, вращательной) огромными наборами данных и аугментацией, просто потому что это вычислительно дешевле, чем использовать математически «правильную», но медленную модель.

Трансформеры — это GNN, которые «выиграли в аппаратную лотерею». Вот основные причины их триумфа:

Матричные вычисления: Работа на полном графе позволяет свести все операции к перемножению плотных матриц. Это именно то, что GPU и TPU делают максимально эффективно.
Проклятие разреженности: Традиционные графовые сети часто работают с разреженными структурами. Механизмы передачи сообщений на таких графах плохо согласуются с современным железом, создавая огромные накладные расходы при вычислениях.
Золотая середина: Механизм внимания в трансформерах — это компромисс между простым усреднением (диффузией) и полноценной передачей векторных сообщений. Это обеспечивает отличную масштабируемость.

В условиях ограниченных данных использование специфических графовых структур имело бы больше смысла. Но в современном мире, где данные избыточны, а вычислительные мощности дороги, использование «полнографового» трансформера оказывается более экономически выгодным решением, даже если теоретически оно кажется избыточным.

Алгоритмическое мышление и дискретный мир 2:12:26

Ранее в разговоре Майкл и ведущие касались темы того, могут ли нейросети вообще рассуждать. Бронштейн отмечает, что GNN обладают уникальным свойством: их операции очень хорошо согласуются с алгоритмами динамического программирования. Например, процесс поиска кратчайшего пути (алгоритм Беллмана-Форда) можно почти напрямую транслировать в архитектуру передачи сообщений GNN.

Несмотря на то, что нейронные сети — это непрерывные геометрические модели, работающие с гладкими многообразиями, внутри них можно симулировать дискретные шаги оптимизации. Майкл объясняет, что за дискретным выбором (например, операцией arg max) в алгоритмах обычно стоит гладкая функция, которую нейросеть способна аппроксимировать. Это открывает путь к созданию систем, которые не просто интерполируют данные, но и способны экстраполировать знания на задачи большего размера — например, научиться сортировать массив из 10 элементов и применить этот навык к миллиону.

📊 Аугментация данных против архитектурных ограничений 2:31:30

Жесткий код против расширения выборки: фундаментальный компромисс 2:31:30

В области геометрического глубокого обучения существует вечный спор: нужно ли жестко закладывать математические симметрии в саму архитектуру нейросети или эффективнее имитировать их, искусственно расширяя обучающую выборку с помощью аугментации данных. Этот выбор во многом определяет баланс между вычислительной эффективностью и способностью модели к генерализации. Как отмечает Тако Коэн, выбор оптимального подхода всегда зависит от специфики конкретной задачи.

Природа данных: Для графовых структур, где размерность группы перестановок растет как $N!$, аугментация физически невозможна — выборку из графа в 1000 узлов невозможно репрезентативно дополнить. Здесь симметрию необходимо вшивать в архитектуру изначально.
Плотность трансформаций: В задачах компьютерного зрения, напротив, вполне реально сэмплировать достаточно плотную сетку геометрических трансформаций, таких как повороты, масштабирование или цветовые искажения.

Тем не менее, искусственное расширение данных не дает стопроцентных гарантий. В медицинских задачахCells — например, при анализе гистопатологических снимков тканей — клетки не имеют фиксированной ориентации. Замена стандартных сверток на групповые свертки, жестко соблюдающие симметрии вращения и сдвига, показывает колоссальное преимущество перед даже самой продвинутой и тонко настроенной аугментацией. Вшитая эквивариантность гарантирует, что сеть выдаст идентичный результат на тестовых данных, как бы ни был повернут снимок. Ранее в разговоре участники касались феномена лотереи аппаратного обеспечения, и в данном контексте ограничения доступного «железа» также напрямую влияют на то, какой компромисс между кодом и данными выберет инженер.

Если архитектура не отражает реальную структуру задачи, избыточная эквивариантность при бесконечном объеме данных может даже навредить. Например, в популярном датасете ImageNet большинство объектов сфотографированы людьми и расположены вертикально по центру. Модель без жестких ограничений может использовать это смещение для повышения точности, однако в реальном мире, если робот перевернется, жесткая геометрическая симметрия окажется критически важной для выживания системы.

Геометрическая стабильность и сила приближенных симметрий 2:35:23

Майкл Бронштейн подчеркивает, что выбор между жестким моделированием и аугментацией не бинарен. В реальном мире идеальная инвариантность или эквивариантность — это зачастую лишь выдача желаемого за действительное. Вместо этого ключевым принципом становится «геометрическая стабильность».

Представьте видеозапись, где один автомобиль движется влево, а другой — вправо. Между кадрами не существует единого глобального переноса, который мог бы описать сцену. Математическое описание усложняется, но если трансформация достаточно близка к элементам группы симметрии, система должна оставаться приблизительно эквивариантной. Майкл Бронштейн ссылается на фундаментальные работы Стефана Малла, показавшего, что сверточные нейросети столь эффективны именно благодаря своей устойчивости к деформациям (warpings).

Хорошим примером служат рукописные цифры из набора MNIST: разные стили написания можно рассматривать как локальные искажения канонического начертания. Нейросеть не обладает абсолютной инвариантностью к таким искажениям, но она стабильна по отношению к ним. Именно в этом контексте аугментация данных находит свое теоретическое обоснование: она расширяет строгие классы эквивариантности до практических, приближенных симметрий. Таким образом, сглаживание функций в окрестностях группы симметрий позволяет извлекать выгоду из обобщающей способности без жесткого урезания емкости самой модели.

Архитектурные трюки для гибких ограничений и поиск скрытых структур 2:44:37

Одним из самых практичных способов реализовать приближенную инвариантность в архитектуре, не делая её при этом избыточно жесткой, Майкл Бронштейн называет использование сквозных связей (skip connections). Это простой, но мощный репрезентативный инструмент: мы можем объединить блок, строго соблюдающий симметрию, с более гибким компонентом, давая модели возможность самостоятельно выбирать или игнорировать наложенные ограничения.

Этот паттерн активно используется в рамках архитектурных чертежей для нейронных алгоритмических рассуждений. При переносе классических алгоритмов на графах (например, алгоритма Дейкстры для поиска кратчайшего пути) в зашумленный реальный мир дорожных сетей возникает фундаментальная сложность. Невозможно упаковать всю вариативность погоды, дорожных заторов и психологии водителей в один скалярный вес ребра графа без огромной потери информации. Решением становится создание высокоразмерного нейросетевого компонента, который симулирует шаги алгоритма, но при этом дублируется сквозным skip-соединением от сырого энкодера данных. Если алгоритмическая модель упускает важные контекстные факторы, сеть извлекает их напрямую, страхуя себя от жесткости математических допущений.

Ситуация становится еще более запутанной, когда симметрии системы неизвестны заранее. Задача автоматического поиска групповых структур в сырых данных глубоко амбивалентна. Если объекты на видео чаще движутся горизонтально и лишь изредка — вертикально, невозможно однозначно утверждать, какую группу симметрий следует выбрать — одномерную или двумерную. Что считать фундаментальным законом, а что — шумом, который нужно отдать на откуп аугментации? Универсального ответа нет.

Природа вокруг нас полна сложных фрактальных и иерархических структур — от русел рек до облаков и ураганов. Фракталы наглядно доказывают, что невероятно сложные макроскопические паттерны могут рождаться из очень простых локальных правил, применяемых итеративно. Майкл Бронштейн приводит красивую аналогию с физическим миром:

«Я сижу в комнате, окруженный примерно квадриллионом молекул газа, которые летают и сталкиваются друг с другом. На микроскопическом уровне размерность системы колоссальна и абсолютно не поддается прямому моделированию. Но если мы отдалимся, законы термодинамики и статистической механики опишут эту макросистему всего через несколько параметров — таких как температура».

Подобное сжатие сложности лежит в основе многих прорывных идей в компьютерном зрении. В 1990-х годах Майкл Барнсли предложил концепцию фрактального кодирования, обещавшую невероятные коэффициенты сжатия изображений за счет сборки картинки из уменьшенных и повернутых копий самой себя (эта технология даже использовалась в знаменитой энциклопедии Microsoft Encarta). Сегодня группа Михаль Ирани из Института Вейцмана использует схожие принципы кросс-масштабного самоподобия внутри одного изображения для задач суперразрешения и подавления шумов. Все это в очередной раз доказывает: поиск скрытых геометрических и масштабируемых регулярностей — это не просто математическая абстракция, а фундаментальный способ декомпозиции сложности нашей физической реальности.

🧠 Деантропоцентричный ИИ: Архитектура аналогий и геометрический разум 3:17:15

В современных дискуссиях об искусственном интеллекте антропоцентрический подход часто ограничивает наше понимание истинной природы когнитивных процессов. Взамен привычного копирования человеческих реакций Майкл Бронштейн и его коллеги предлагают рассмотреть деантропоцентричный взгляд на проблему. В рамках этой парадигмы интеллект определяется прежде всего через способность эффективно абстрагировать информацию из одного контекста и гибко переносить её в совершенно другие, незнакомые области посредством аналогий. Этот подход не просто уходит корнями в классические когнитивные исследования, но и находит строгое математическое выражение в концепциях геометрического глубокого обучения.

Мышление как поиск симметрий: аналогии Дугласа Хофштадтера 3:17:15

Идея о том, что аналогии лежат в самом сердце познания, была развернуто сформулирована еще в 1970-х годах. Дуглас Хофштадтер в своей знаменитой Пулитцеровской книге «Гёдель, Эшер, Бах» утверждал, что способность строить аналогии — это не второстепенный ментальный модуль, а «межгосударственная автомагистраль познания». Любой акт человеческого мышления, по сути, пронизан этим механизмом перепостроения связей.

С точки зрения геометрического глубокого обучения, аналогии можно интерпретировать как фундаментальные скрытые симметрии. Когда мы используем повседневные метафоры — например, говоря, что один человек «выстраивает файрвол против другого» (firewalling a person), — наш мозг мгновенно сопоставляет абстрактную структуру сетевой безопасности с социальной категорией отношений. Происходит инвариантное отображение связей из технического домена в психологический. Это ставит перед исследователями глубокий вопрос: требует ли подобное абстрактное мышление создания принципиально новых архитектур нейронных сетей, или же текущий геометрический чертеж и инструменты репрезентации уже способны поставлять необходимые результаты? Задача сводится к тому, чтобы научить ИИ улавливать изоморфную суть явлений вне зависимости от их поверхностного воплощения.

Интеграция Системы 1 и Системы 2 через геометрический подход 3:18:10

Развивая деантропоцентричное определение разума, исследователи предлагают рассматривать интеллект как процесс динамической рекомпозиции примитивов. Сталкиваясь с новой информацией, гибкая система должна понимать, как пересобрать имеющиеся у неё базовые элементы знаний, чтобы обнаружить неочевидные параллели и прийти к верным выводам. Такой дуализм отлично соотносится с известной концепцией Системы 1 и Системы 2, описанной Даниэлем Канеманом.

В контексте построения сильного ИИ это разделение выглядит следующим образом:

Перцептивный компонент (Система 1) отвечает за первичную обработку сырых данных, трансформируя хаотичный входящий поток в упорядоченную абстрактную концептуальную информацию.
Рассуждающий компонент (Система 2) оперирует уже готовыми абстракциями в высокоуровневом пространстве, выводя новые заключения на основе компактного и понятного набора правил.

Инструменты геометрического глубокого обучения предоставляют отличные строительные блоки для реализации такого разделения. Более того, ученые видят перспективу в расширении этого фреймворка за счет внедрения концептов теории категорий. Это позволит формализовать и объединить строгие алгоритмические вычисления с непрерывным геометрическим подходом. И если в области перцептивных архитектур (Система 1) благодаря методам self-supervised обучения уже достигнут колоссальный прогресс, то в управлении абстрактными концептами ученым еще только предстоит навести порядок.

Вызовы алгоритмической имитации и экстраполяции 3:20:06

Даже если мы предположим, что нейросеть научилась идеально формировать абстрактные концепты, ключевой проблемой остается то, как именно она будет ими манипулировать в реальных задачах. Текущие исследования показывают, что научить графовые нейросети тривиальной имитации строгих алгоритмов даже на идеальных синтетических данных — это нетривиальный вызов для оптимизации. Ранее в разговоре спикеры кратко упоминали нейронные алгоритмические рассуждения, и в контексте мышления эта проблема проявляется наиболее остро.

Модель способна демонстрировать отличные результаты и точно повторять логику алгоритма внутри обучающего распределения (in-distribution), но по-настоящему интеллектуальной и алгоритмической система становится только тогда, когда она способна на экстраполяцию. Шаги к решению этой проблемы предпринимаются: так, разработанная с участием исследователей DeepMind архитектура ExLLVIN (Executed Latent Value Iteration Network) успешно объединяет геометрию пространства состояний с алгоритмическим планированием в обучении с подкреплением. Это позволяет ИИ находить эффективные стратегии в играх Atari значительно быстрее стандартных подходов, не требуя миллиардов итераций взаимодействия со средой. Тем не менее, устойчивый перенос логики рассуждений на задачи и графы принципиально иного масштаба остается главным открытым вызовом для деантропоцентричного ИИ.

🕸️ Калибровочная симметрия на нерегулярных сетках 3:20:31

Проблема разделения весов: от однородных пространств к сложным многообразиям 3:23:55

Хотя в начале данного фрагмента беседы кратко упоминаются антропоцентричные концепции интеллекта и специфика коммуникации кашалотов, ключевой фокус финальной главы смещается в сторону чистой геометрии нерегулярных структур. Перенос классических архитектур сверточных нейросетей (CNN) на анализ сложных трехмерных объектов требует радикального пересмотра принципов обработки данных. В традиционном двумерном анализе изображений свертка держится на двух важнейших принципах: локальности фильтров и глобальном разделении весов (weight sharing) между всеми позициями пространства. Применение одного и того же фильтра ко всем участкам изображения напрямую обусловлено трансляционной симметрией евклидовой плоскости. Это свойство гарантирует высокую параметрическую эффективность модели.

Однако при работе с общими многообразиями или полигональными сетками (meshes) — например, цифровыми моделями человеческих тел или сложными белковыми структурами — исследователи сталкиваются с полным отсутствием глобальной симметрии. Майкл Бронштейн и его коллеги противопоставляют таким сложным объектам сферу, которая является идеальным примером однородного пространства (homogeneous space). На сфере любые две точки тесно связаны операцией вращения, то есть существующая симметрия транзитивна. Напротив, нерегулярная трехмерная сетка белка лишена глобальной транзитивности. В таких условиях стандартный перенос фильтра из одной точки в другую без потери свойств невозможен. Из-за отсутствия глобальных симметрий математически исчезают любые естественные ограничения на параметры, что заставляет сеть использовать произвольные линейные отображения и полностью уничтожает ее компактность и эффективность.

Применение калибровочных симметрий и локальных мотивов 3:26:51

Элегантным решением этой фундаментальной проблемы становится переход к калибровочным симметриям (gauge symmetries). Соблюдение калибровочной инвариантности позволяет наложить жесткие внутренние ограничения на фильтр в каждой конкретной локальной точке — например, сделать его строго ротационно эквивариантным. Тем не менее, калибровочные симметрии сами по себе не способны связать веса фильтров в принципиально разных, удаленных друг от друга областях многообразия. Для преодоления этого барьера исследователи предлагают использовать аппарат локальных симметрий и теорию группоидов, позволяющую выстроить локальное разделение параметров.

Если в стандартных графовых нейросетях (GNN) базовым свойством выступает глобальная инвариантность к перестановке узлов (permutation symmetry), которая реализуется через независимые от порядка операции агрегации вроде суммирования, то для нерегулярных геометрических объектов необходим фокус на локальных структурах. Этот подход лег в основу концепции «естественных графовых сетей» (Natural Graph Networks), которая разделяет обработку данных на два уровня, заставляя локальный слой искать устойчивые геометрические паттерны.

В качестве ключевых примеров таких локальных мотивов (local motifs) выделяются следующие структуры:

Ароматические кольца — стабильные шестиугольные углеродные циклы, регулярно встречающиеся в молекулярных графах.
Повторяющиеся топологические микро-графы, которые воспроизводятся как внутри одной молекулы, так и в масштабах обширных баз данных.

С помощью алгоритмов проверки локального изоморфизма графов нейросеть сканирует нерегулярный объект и выявляет данные мотивы. Как только аналогичный паттерн обнаружен, system обрабатывает его идентичным образом, используя строго одинаковый набор весов. Если сам локальный мотив обладает внутренней симметрией (автоморфизмом) — как ароматическое кольцо, которое можно повернуть шесть раз, — веса фильтрации жестко ограничиваются соответствующей группой автоморфизмов этого подграфа.

Внедрение таких строгих геометрических ограничений позволяет навести порядок в огромном хаосе существующих нейросетевых архитектур. Создание единого геометрического чертежа (blueprint) помогает окончательно превратить глубокое обучение из набора эмпирических «черных ящиков» в прозрачную, научно обоснованную систему, где каждый элемент логически вытекает из внутренней геометрии данных.