На ежегодной конференции по нейронным информационным системам NeurIPS исследовательница в области машинного обучения и докторант по физике Адель Майерс (Adele Myers) представила работу, посвященную математическому анализу биологических форм. В центре внимания — алгоритм, позволяющий количественно оценить изменения клеточных мембран в процессе их миграции и эволюции, используя сложные геометрические инструменты.
🧬 От биологии к геометрии: как измерить форму жизни 0:00
Традиционно биологи описывают форму клетки с помощью простых геометрических характеристик: округлости (circularity), выпуклости (convexity), периметра или площади . Однако, по мнению Адель Майерс, эти показатели недостаточно надежны и полны для глубокого понимания динамических процессов, таких как миграция раковых клеток или изменения в структуре мозга и сердца .
Для решения этой задачи исследовательница предложила использовать аппарат дифференциальной геометрии. Процесс анализа разделен на несколько этапов:
- Дискретизация: на поверхности клетки или контуре мембраны выбирается набор точек-семплов .
- Проекция: дискретная кривая проецируется в пространство объектов .
- Создание траектории: при наблюдении за клеткой во времени каждый временной отрезок дает новую форму. В совокупности они образуют траекторию в пространстве форм .
- Нормализация: чтобы сосредоточиться исключительно на форме, исследователи исключают влияние вращения, масштабирования и переноса объекта (quotienting).
В итоге ученые получают возможность работать на римановом многообразии дискретных кривых .
📐 Эластическая метрика: параметры изгиба и растяжения 3:30
Для определения расстояния между двумя формами на римановом многообразии необходимо задать метрику. Майерс использует семейство «эластических метрик», которые критически важны для построения регрессионных моделей на многообразиях .
Ключевая особенность этой метрики заключается в двух параметрах:
- Параметр A (Bending): отвечает за то, насколько сильно форма изгибается.
- Параметр B (Stretching): определяет степень растяжения формы .
Адель Майерс приводит наглядную аналогию: если взять идеальный круг, то его можно сначала растянуть в овал, а затем изогнуть этот овал в более сложную форму . Сочетание параметров A и B позволяет математически точно описать, чем одна клетка отличается от другой с точки зрения физической деформации.
🤖 Оптимизация через регрессию: обучение метрики 5:10
Центральная часть исследования, представленного на NeurIPS — «Regression-Based Elastic Metric Learning». Проблема заключалась в том, как именно выбирать значения параметров A и B для конкретных биологических данных .
По словам Майерс, ее работа предлагает метод «изучения» этих параметров:
- Геодезическая регрессия: это аналог линейной регрессии, но адаптированный для работы на искривленных поверхностях (многообразиях) .
- Коэффициент детерминации ($R^2$): исследователи используют этот статистический показатель как функцию потерь, чтобы понять, насколько хорошо регрессионная модель описывает реальную траекторию клетки .
- Градиентный подъем: алгоритм вычисляет явный градиент $R^2$ по отношению к параметрам A и B, после чего методом градиентного подъема находит их оптимальные значения, максимизирующие точность модели .
🧪 Эксперименты на раковых клетках и точность метода 8:06
Для проверки алгоритма команда Адель Майерс создала синтетические данные на основе реальных изображений раковых клеток . Это позволило заранее знать «истинные» параметры метрики и проверить, сможет ли код их восстановить.
Результаты тестов показали:
- Сравнение с SRV: алгоритм сравнивали с метрикой Square Root Velocity (SRV), где параметры фиксированы (A=1, B=0.5). Обученная модель Майерс превзошла SRV во всех случаях, когда истинные параметры биообъекта отличались от стандартных настроек SRV .
- Парадокс дискретизации: вопреки ожиданиям, точность работы кода была выше при среднем количестве точек выборки (от 30 до 50 семплов на контур) . При значительном увеличении числа точек точность могла снижаться, что Адель связывает с особенностями настройки параметров .
- Объем данных: модель ожидаемо работает лучше при наличии длинных временных рядов (большого количества кадров в траектории клетки).
Как утверждает исследовательница, в будущем этот инструмент позволит биологам классифицировать типы клеток и их поведение на основе того, как именно они деформируются в процессе движения .
🤝 Физика встречается с ИИ 11:59
Адель Майерс призналась, что ее основная специализация — физика, и она никогда формально не изучала машинное обучение до этого проекта . Участие в NeurIPS стало для нее возможностью увидеть, как узкоспециализированные знания из разных областей (дифференциальная геометрия, биология и ML) пересекаются для решения фундаментальных задач науки о жизни.