На стыке современной робототехники и фундаментальной математики рождаются инструменты, способные радикально упростить работу с трехмерным пространством. Профессор Кембриджского университета Джоан Лазенби (Joan Lasenby) в интервью для Y Combinator рассказывает о потенциале геометрической алгебры — математического языка, который заменяет громоздкие матрицы элегантными геометрическими объектами. Этот подход уже находит применение в навигации беспилотников, компьютерном зрении и анализе сложных инженерных структур, предлагая разработчикам принципиально новый взгляд на алгоритмы будущего.
🛸 Дроны в Кембридже: почему классического компьютерного зрения больше недостаточно 0:00
Исследовательская группа Джоан Лазенби в Кембриджском университете совместно с департаментом архитектуры разворачивает проект по использованию беспилотных летательных аппаратов для анализа городской застройки. Вся окружающая нас архитектурная среда преимущественно состоит из линий, поэтому ученые стремятся перенести основные процессы обработки визуальных данных именно на работу с линиями.
Классическое компьютерное зрение исторически опирается на точки. Традиционная трехмерная реконструкция использует облака точек (point clouds) и алгоритмы структуры из движения (structure from motion). Ярким примером служат костюмы для захвата движений (motion capture) с закрепленными на них светящимися шариками для пинг-понга, где система отслеживает исключительно координатные точки. Аналогично работают и движущиеся камеры, которые сопоставляют точечные маркеры между кадрами.
По мнению Джоан Лазенби, математический аппарат для полноценной работы с линиями в классическом зрении чрезвычайно громоздок. Чтобы преодолеть это ограничение, команда Кембриджа интегрирует геометрическую алгебру в качестве базового фреймворка.
⏳ От Грассмана до Хестенеса: утерянная история геометрической алгебры 1:18
История этого математического направления началась в XIX веке, задолго до появления первых компьютеров. Немецкий математик Герман Грассман разработал концепцию внешнего произведения (outer product, или wedge product), обозначаемую символом «клина» ($\wedge$). Если взять два вектора $a$ и $b$, их внешнее произведение $a \wedge b$ порождает принципиально новую математическую сущность.
Позже английский математик Уильям Клиффорд, работавший в Тринити-колледже в Кембридже, расширил идеи Грассмана. Он объединил внутреннее (скалярное) произведение, дающее скаляр, и внешнее произведение в единый продукт Клиффорда:
$$a b = a \cdot b + a \wedge b$$
Эта система получила название алгебры Клиффорда. Сам ученый скоропостижно скончался в 1870-х годах в возрасте 34 лет. Джоан Лазенби считает, что из-за ранней смерти Клиффорда его идеи надолго остались лишь на страницах чисто математической литературы, не получив прикладного применения.
В 1960-х годах американский физик Дэвид Хестенес переоткрыл этот аппарат, вернул ему историческое название «геометрическая алгебра» и начал активно развивать его потенциал. Его докторская диссертация легла в основу монументального труда «Space-Time Algebra» (Алгебра пространства-времени), однако реальный интерес со стороны научного сообщества пробудился лишь к 1980-м годам.
🧩 Что такое геометрическая алгебра и почему она «схлопывает» матрицы 3:17
В отличие от стандартной линейной алгебры, геометрическая алгебра оперирует пространством, где одновременно сосуществуют геометрические объекты разных размерностей:
- Скаляры (0D — точки без направления);
- Векторы (1D — направленные отрезки с величиной и направлением);
- Бивекторы (2D — ориентированные элементы плоскости);
- Тривекторы (3D — ориентированные объемы).
Бивектор, формируемый через $a \wedge b$, представляет собой плоскость, обладающую площадью, пространственной ориентацией и направлением обхода (handedness). Если изменить порядок векторов, знак плоскости меняется на противоположный: $b \wedge a = -(a \wedge b)$. В трехмерном пространстве тривектор $a \wedge b \wedge c$ формирует ориентированный объем, выше которого подняться нельзя.
Главная сила геометрической алгебры заключается в том, что она превращает точки, линии, плоскости и объемы в полноправные объекты единого пространства. Их можно напрямую складывать, умножать и дифференцировать друг относительно друга без декомпозиции на отдельные координаты.
Дэвид Хестенес выбрал этот путь, поскольку осознал, что геометрическая алгебра колоссально упрощает физику пространства-времени, квантовую механику и общую теорию относительности. Для работы с теорией относительности физикам традиционно требуются глубокие знания дифференциальной геометрии и сложнейшего тензорного анализа. По мнению Лазенби, геометрическая алгебра позволяет осуществлять любые линейные трансформации и функции геометрически интуитивно, оставаясь строго внутри исходной алгебры и не уходя в абстрактные дуальные пространства. Например, матрицы Дирака при таком подходе перестают быть матрицами, превращаясь в естественные элементы геометрической структуры.
Основной причиной, почему мир не перешел на этот язык сразу, стала популярность векторного исчисления Джозайи Гиббса и Оливера Хевисайда, предложивших векторное произведение (cross-product). Векторное произведение двух векторов $a \times b$ выдает перпендикулярный вектор, что работает исключительно в трехмерном пространстве. В четырехмерном пространстве концепции единого перпендикуляра к плоскости просто не существует. Тем не менее, инженерия и компьютерные науки выросли на матрицах и векторном исчислении, создав колоссальную академическую инерцию.
🔄 Революция вращений: кватернионы, бивекторы и преодоление сингулярностей 10:47
Путь самой Джоан Лазенби в эту дисциплину начался благодаря ее мужу, космологу Энтони Лазенби (Anthony Lazenby). Он увлекся геометрической алгеброй, когда обнаружил, что она мгновенно и элегантно объясняет уравнения Коши — Римана, а также физический смысл матриц Паули и Дирака в квантовой физике пространства-времени. Энтони вместе со своим аспирантом Крисом Дораном (Chris Doran) написал фундаментальную книгу «Geometric Algebra for Physicists». В то время Джоан была беременна и завершала двухлетний постдок в области инженерии, где занималась компьютерным анализом и визуализацией пламени. Из общения с мужем она осознала перспективность GA для решения задач вращения в трехмерном пространстве.
Традиционно инженеры используют для вращений матрицы размера $3 \times 3$. Однако вращение имеет всего три степени свободы, а матрица содержит девять компонентов, которые жестко взаимосвязаны. С точки зрения вычислительной математики матрицы вращения неудобны: при их постоянном обновлении в коде приходится применять дополнительные ограничения, чтобы удерживать матрицу на математическом многообразии.
В игровой графике и управлении спутниками прижились альтернативы — углы Эйлера и кватернионы. Уильям Гамильтон создал кватернионы как расширение комплексных чисел, введя мнимые единицы $i, j, k$, квадрат которых равен $-1$. В геометрической алгебре обнаруживается, что квадрат любого единичного бивектора (плоскости) в 3D пространстве также равен $-1$.
Это доказывает, что кватернионы — не абстрактные сущности, а реальные геометрические объекты. Элементы $i, j, k$ Гамильтона представляют собой единичные плоскости XY, YZ и XZ в трехмерном пространстве, а сами кватернионы выполняют функции вращения вокруг этих плоскостей. Геометрическая алгебра позволяет масштабировать этот принцип вращения на абсолютно любую размерность пространства.
🗺️ Конформная геометрическая алгебра: пятимерный прорыв для инженеров 16:26
В 1993 году, когда Джоан Лазенби начинала свои исследования, компьютерное зрение базировалось исключительно на геометрии без намека на современное машинное обучение. Разработчики опирались на проективную геометрию в четырехмерном пространстве с использованием матриц, пытаясь вычислить углы поворота и смещения между множеством камер для последующей 3D-реконструкции.
Получив престижную пятилетнюю исследовательскую стипендию от Королевского общества (Royal Society), Джоан Лазенби сосредоточилась на внедрении геометрической алгебры в инженерное дело. В те годы через международные списки рассылки она познакомилась с мексиканским ученым Эдуардо Байро-Коррочано (Eduardo Bayro-Corrochano). Вместе они перевели классические алгоритмы проективной геометрии компьютерного зрения на язык геометрической алгебры.
Главное преимущество такого переноса — избавление от хаоса систем координат. В GA существует единая инерциальная система, относительно которой вращаются и смещаются сами геометрические объекты. Инженеру больше не нужно наслаивать матричные координатные сетки друг на друга и путаться в расчетах, что регулярно происходит со студентами-механиками.
Настоящий прорыв произошел в 1999 году, когда Дэвид Хестенес представил доклад по конформной геометрической алгебре (Conformal Geometric Algebra, CGA), идеи которой были кратко изложены в финальных главах его книги 1984 года, написанной совместно с Гарретом Собчиком.
Конформная модель надстраивает над привычным трехмерным евклидовым пространством два дополнительных вектора — начало координат и точку в бесконечности, формируя пятимерное пространство. В рамках CGA математическими объектами (элементами алгебры) становятся не просто векторы, а:
- Точки;
- Линии;
- Плоскости;
- Окружности;
- Сферы.
В этой системе окружность является обычным тривектором в 5D-пространстве. Появляются «роторы» — операторы, которые в рамках единого выражения осуществляют вращение, перемещение и масштабирование (дилацию) объектов. Пересечь две сферы или построить окружность ровно через три заданные точки в CGA становится тривиальной операцией, выполняемой в одну строчку кода, что подробно описали Лео Дорст, Стивен Манн и Даниэль Фонтинье в своей книге «Geometric Algebra for Computer Scientists».
Более того, CGA является универсальным языком для работы с неевклидовыми геометриями. Если в конформной алгебре евклидова геометрия сохраняет инвариантной точку в бесконечности, то, меняя этот инвариант, программист без изменения базового математического аппарата может переносить алгоритмы вращения и перемещения объектов в гиперболическое или сферическое пространство.
🤖 Геометрическая алгебра против Machine Learning: синергия или конкуренция? 29:00
Современное компьютерное зрение практически полностью сместилось в сторону глубокого машинного обучения. Вместо геометрии разработчики обучают нейросети сегментировать и распознавать образы на основе миллионов изображений. Джоан Лазенби признает, что геометрическая алгебра не способна дать принципиально новые результаты, которые физически невозможно получить классическими методами. Однако она дает инженеру ментальный инструмент, позволяющий увидеть красивое и простое решение там, где классическая математика заходит в тупик — например, при расчете кратчайшего расстояния между двумя произвольными линиями в пространстве.
Сегодня в лаборатории Лазенби выстроена гибридная стратегия:
- Классические нейросети (RNN, LSTM) применяются студентами для задач, лишенных пространственной геометрии, таких как анализ медицинских временных рядов или попиксельная сегментация плоских медицинских снимков.
- Геометрическая алгебра берет на себя управление в задачах с динамическим видеопотоком, движущимися дронами и множественными камерами, где критически важно сопоставлять линии, плоскости и осуществлять триангуляцию в реальном времени.
Ученые стремятся научить нейросети распознавать и параметризовать не абстрактные пиксели, а непосредственно сами геометрические объекты и законы их движения в пространстве. В беспилотных автомобилях сейчас доминируют иные подходы (лидары, байесовские методы сегментации трассы и высокоточный GPS). Тем не менее, Лазенби видит огромный потенциал GA в фундаментальных областях инженерии — от расчета упругости тонких оболочек (thin shell elasticity) до кардинального упрощения уравнений электромагнитных полей.
⚙️ Инструменты разработчика: от теории к веб-версии на Python 36:32
Несмотря на очевидную элегантность, геометрическая алгебра до сих пор остается нишевым инструментом и практически не преподается в университетах. Сама Лазенби читает студентам четвертого курса Кембриджа лекции по обработке изображений, но не включает туда GA, поскольку молодые люди не могут интересоваться тем, о существовании чего даже не догадываются. При этом студенты, которые все же берутся за изучение GA, осваивают ее без предрассудков, воспринимая как еще один удобный алгоритмический инструмент наравне с ML.
Определенный всплеск интереса произошел в 2000 году, когда статья Лазенби, написанная для специального миллениум-издания Королевского общества, внезапно попала на первое место платформы Hacker News. Дискуссия в комментариях наглядно отразила отношение индустрии: от восхищения возможностями унификации до жалоб на высокую сложность восприятия. Главный барьер для внедрения — необходимость «разучиться» привычной школьной алгебре, поскольку умножение в GA антикоммутативно ($ab \neq ba$).
Долгое время развитие GA сдерживалось отсутствием доступного софта. Разработчикам приходилось качать сложные локальные пакеты и часами настраивать зависимости под Linux или Windows. Сегодня ситуация меняется:
- Американец Алекс Арсенович (Alex Arsenovic) написал качественную библиотеку
cliffordдля Python. - Аспирант Джоан Лазенби, Хьюго Хадфилд (Hugo Hadfield), разработал полноценную веб-версию инструмента на базе Jupyter-ноутбуков с интерактивной визуализацией, не требующую локальной установки.
🏃♂️ Вне науки: философия движения Джоан Лазенби 46:32
В конце беседы Джоан Лазенби поделилась личной историей, которая неожиданно перекликается с ее научными изысканиями о динамике объектов. Профессор с самого детства серьезно занимается бегом.
Она глубоко убеждена, что независимо от спортивных предпочтений, по мере старения человеку жизненно необходимо поддерживать постоянную мобильность, заставляя мышцы двигаться независимо и сохраняя автономность тела. Как шутит Лазенби, если бы она не посвятила свою жизнь геометрической алгебре и Кембриджу, она определенно создала бы проект, направленный на мотивацию пожилых людей к активному движению и поддержанию здоровья своего тела.