Как извлечь четкую структуру из неполных и зашумленных данных, будь то снимки медицинского томографа или лазерное сканирование лесов? Математик Кембриджского университета Карола Шёнлиб (Carola Schönlieb) подробно описывает, как фундаментальные уравнения меняют современные подходы к обработке изображений. В фокусе дискуссии — прагматичный баланс между строгими математическими гарантиями и гибкостью глубокого обучения, применимый как в клинической диагностике, так и в реставрации произведений искусства.
🧮 От металлических сплавов к цифровым пикселям 0:00
Карола Шёнлиб начала свой академический путь в Австрии, защитив диссертацию в Венском университете. Ее ранние исследования лежали в области дифференциальных уравнений в частных производных (PDE), которые моделируют изменения в пространстве и времени для объяснения различных природных явлений в физике и биологии. Примечательно, что первое научное исследование Шёнлиб не имело никакого отношения к пикселям — оно было посвящено уравнению Кана — Хиллиарда (Cahn-Hilliard equation). Это математическая модель, описывающая процессы фазового разделения и укрупнения в металлических сплавах при их охлаждении до определенной температуры. Работа спикера заключалась в анализе стабильности стационарных решений этого уравнения при микровозмущениях начальных условий. По словам Шёнлиб, в континентальной Европе прикладная математика устроена так, что исследования часто вдохновляются реальными индустриальными кейсами, но в итоге трансформируются в чисто интеллектуальный поиск внутри абстрактных математических проблем.
Переломный момент произошел, когда исследовательская группа под руководством Андреа Бертоцци (Andrea Bertozzi) из UCLA применила это же уравнение Кана — Хиллиарда для цифровой реставрации поврежденных изображений. Оказалось, что модель фазового разделения металлов идеально подходит для восстановления отсутствующих или перекрытых зон на картинке, заменяя их структурой, подсказанной окружающим контекстом. По сути, это исследование стало концептуальным предтечей популярного алгоритма Content-Aware Fill («Заполнение с учетом содержимого») в Adobe Photoshop. Полноценные коммерческие инструменты появились на рынке значительно позже, и хотя современный Photoshop использует иные нелокальные дифференциальные уравнения (копирующие и вставляющие подходящие паттерны-патчи), вся эта индустрия выросла из академических математических изысканий. Под впечатлением от этого открытия Шёнлиб полностью переключилась на обработку изображений, посвятив свою PhD-диссертацию математическим методам реставрации.
📸 Математика против Photoshop: обратные задачи томографии 4:53
На этапе постдокторантуры Шёнлиб перешла к изучению так называемых обратных задач визуализации (inverse imaging problems). В отличие от классической фотографии, где сенсор камеры сразу фиксирует готовый массив пикселей, во многих высокотехнологичных сферах (например, в биомедицине) ученые имеют дело лишь с косвенными измерениями. Ярким примером является компьютерная томография (КТ), где аппарат регистрирует не сами органы, а трехмерные проекции рентгеновских лучей, проходящих сквозь тело пациента. Датчики измеряют затухание (ослабление) излучения в зависимости от того, с какими типами биологических тканей оно сталкивается. Данный процесс описывается как интеграл по траектории луча, что математически восходит к фундаментальному преобразованию Радона (Radon transform).
В реальных условиях эксплуатации томографов собираемые данные всегда неполны, и вероятность критических пропусков или шумов здесь кратно выше, чем в потребительской фотографии. Спикер выделяет несколько причин дефицита данных:
- Конечная размерность физического мира: технически невозможно измерить бесконечное число интегральных линий сквозь тело.
- Радиационная безопасность: врачи стремятся минимизировать лучевую нагрузку на пациента, сознательно уменьшая количество просвечиваний.
- Аппаратный шум: любые физические замеры на реальном оборудовании неизбежно содержат погрешности.
По словам Шёнлиб, именно поэтому алгоритмы шумоподавления (denoising) сегодня жестко интегрируются непосредственно в сам математический шаг реконструкции 3D-модели тела, а не применяются к готовому результату.
🔪 Битва за ребра: почему классическое шумоподавление спасает детали 9:03
Привычные методы фильтрации шумов, заимствованные из обработки аудио (например, на базе преобразования Фурье), плохо применимы к графическому контенту. Спикер объясняет, что Фурье-технологии эффективно сглаживают высокочастотный шум за счет срезания верхних частот, но параллельно они уничтожают резкие границы и ребра объектов (edges), делая изображение размытым. В обработке изображений именно ребра и контрастные переходы между цветами являются ключевой информацией, определяющей визуальное восприятие структуры человеком. Математическая задача формулируется как необходимость жестко отделить высокочастотный шум от полезных высокочастотных признаков (деталей).
Одним из наиболее успешных классических методов решения этой дилеммы стала регуляризация по полной вариации (Total Variation Regularization). Этот подход базируется на предположении, что изображение состоит из кусков с резкими разрывами яркости на границах. Спикер также упоминает медианную фильтрацию (median filtering) как более простую и интуитивно понятную альтернативу Гауссову размытию (которое, подобно Фурье, безжалостно стирает грани). При этом ведущий интервью приводит забавный контраргумент из практики графического дизайна: при создании качественного фотомонтажа в Photoshop края объектов, напротив, приходится искусственно размывать (имитируя малую глубину резкости объектива с диафрагмой f/1.4), иначе врезанный объект выглядит неестественно четким и мгновенно выдает подделку.
🤖 Нейросети против формул: почему ИИ ломается на медицинских сканерах 12:32
Долгое время алгоритмы денойзинга кодировались учеными полностью вручную. Сегодня лучшие результаты по чистому шумоподавлению показывают глубокие нейросети, которые стабильно превосходят «ручные» математические модели по метрикам производительности. Однако Карола Шёнлиб призывает не поддаваться слепому хайпу и указывает на главную уязвимость глубокого обучения: нейросети безупречны только на тех типах данных, которые они уже видели в процессе обучения. Если обучить модель на датасете ImageNet с фотографиями животных, она окажется абсолютно бесполезной при обработке медицинских КТ-снимков. Классические формулы, по мнению гостя, сохраняют право на жизнь, так как у человечества все еще недостаточно вычислительных мощностей, чтобы обучить машину «всему миру сразу».
Вторая фундаментальная проблема ИИ в медицине — аппаратная несовместимость. Крупная больница может использовать сканеры от разных мировых вендоров:
- GE (General Electric)
- Siemens
- Toshiba
Каждый производитель использует собственные калибровки, уровни контрастности и проприетарные алгоритмы первичной обработки данных. Шёнлиб подчеркивает: нейросеть, натренированная на снимках сканера одного бренда, может полностью сломаться на данных от аппарата конкурента. Визуально человеческий глаз может вообще не заметить разницы в исходных картинках, но микроскопические системные различия между железом действуют на ИИ как состязательные атаки (adversarial errors). Минимальное, незаметное возмущение заставляет сеть кардинально ошибаться в классификации или генерации артефактов.
🏗️ Гибридный стек: как загнать 100 миллионов параметров в рамки физики 16:14
Для современных математиков эпоха ИИ открывает уникальные исследовательские ниши. Вместо создания громоздких «черных ящиков» со 100 миллионами настраиваемых параметров ученые пытаются внедрить в архитектуру нейросетей строгую математическую структуру. Классические «ручные» модели хороши тем, что они строятся на понятной гипотезе и позволяют математически доказать стабильность алгоритма к помехам, а также рассчитать предельные погрешности. В случае со стомиллионными сетями интерпретировать логику принятия решений и гарантировать отсутствие сбоев невозможно.
Команда Шёнлиб развивает два ключевых направления интеграции:
- Двухуровневая оптимизация (Bi-level optimization): ученые берут жесткую, понятную «ручную» модель, но вместо миллионов параметров оставляют в ней около десяти свободных переменных, которые ИИ дообучает на реальных примерах. Это дает понятный алгоритм с математическими гарантиями отсутствия состязательных сбоев.
- Физические априорные данные (Physics priors): в глубокие сети итеративно закладывается физика процесса — знание о том, что на вход подаются не просто абстрактные пиксели, а линейные интегралы 3D-объекта. Сеть делает итерацию, сверяется с законами физики и идет на следующий круг.
Спикер также развенчивает миф о необходимости идеального обучения ИИ-моделей. С точки зрения стохастической оптимизации, полное сведение функции потерь (loss minimization) к нулю на тренировочном датасете вредно. Если сеть идеально выучит ограниченный массив тренировочных картинок, она потеряет способность к генерализации. По образному выражению участников дискуссии, алгоритм научится идеально убирать шум только с фотографий яблонь, но сломается на всем остальном. Поэтому в машинном обучении используют стохастический градиентный спуск, оптимизируя случайные подмножества данных на каждом шаге и сознательно останавливая обучение на этапе «приблизительного» оптимума, чтобы сохранить гибкость модели.
🏥 Практический стек: от динамических МРТ до лесов и затерянных руин 27:22
Исследования Каролы Шёнлиб находят прямое применение в рамках коллабораций Кембриджского университета с клиниками и индустриальными партнерами. В госпитале Addenbrooke's Hospital ученые разрабатывают алгоритмы для динамического МРТ. Когда объект движется (например, бьющееся сердце), у врачей есть всего 1 секунда на сбор данных вместо обычных 10 секунд для статического органа. Математика позволяет собирать высокоразрешающее видео из экстремально урезанных по времени замеров. В области химического инжиниринга (в профильном Кембриджском исследовательском центре) аналогичные методы используются для отслеживания динамики потоков воды, прокачиваемой через технологические трубки в режиме реального времени.
Другой масштабный проект реализуется совместно с факультетом растениеводства (Plant Sciences) для мониторинга здоровья лесов с самолетов:
- Гиперспектральная съемка: вместо 3 стандартных каналов (RGB) камера фиксирует до 200 каналов, включая невидимый спектр света. Это позволяет выявлять уникальные спектральные подписи материалов и вычислять инвазивные виды деревьев, захватывающие территории.
- Технология LiDAR: лазерное сканирование строит точные 3D-модели лесных массивов.
Ведущий проводит параллель с археологическими проектами на полуострове Юкатан, где технология LiDAR позволяет за неделю обнаружить затерянные руины майя, на раскопки которых у археологов ушли бы 20 лет ручного труда.
При этом Шёнлиб скептически относится к киношным штампам из сериалов вроде CSI Miami, где размытые пиксели с камер видеонаблюдения мгновенно превращаются в четкое лицо по нажатию «магической кнопки». ИИ действительно может дорисовать детали, но, как подчеркивает спикер, в таком случае никто не гарантирует, правдива ли эта галлюцинация или сеть ее просто придумала. В качестве примера судебных рисков вокруг псевдотехнологий упоминается статья в The New Yorker (2010) о судебном процессе в Монреале, где эксперта обвинили в фальсификации 500-летних отпечатков пальцев с помощью спектральной фотографии.
🎨 Виртуальная реставрация: как заглянуть под слои столетней краски 35:19
Еще во время работы над PhD в Вене Карола Шёнлиб участвовала в проекте реставрации средневековых фресок Найдхарта (Neidhart frescoes) в старом центре города. Особенность фресок в том, что пигмент химически становится частью стены, и физическая реставрация необратима. Математики создали виртуальный шаблон, позволивший реставраторам заранее смоделировать разные варианты восстановления без риска испортить исторический памятник.
В Кембридже этот опыт перерос в сотрудничество с Музеем Фицуильяма (Fitzwilliam Museum) для изучения иллюминированных рукописей. Эти манускрипты настолько хрупкие, что музейная этика запрещает любую физическую реставрацию. На прошлогодней выставке «Color» музей представил уникальный экспонат: поврежденную страницу древней рукописи, которую в прошлые века варварски закрасили поверх оригинального слоя. Рядом с оригиналом транслировалась цифровая копия, где алгоритмы Шёнлиб математически послойно «сняли» позднюю краску, вернув манускрипту первоначальный вид.
🧭 Дорожная карта для новичка: с чего начать в Computer Vision 39:03
Для специалистов с бэкграундом в Computer Science, желающих войти в сферу математической обработки изображений, Карола Шёнлиб рекомендует начать с изучения открытых лекционных материалов факультета прикладной математики UCLA. Именно там зародились многие прорывные концепции последних лет. Спикер советует изучить работы ключевых ученых индустрии:
- Стэнли Ошер (Stanley Osher)
- Андреа Бертоцци (Andrea Bertozzi)
- Пьетро Перона (Pietro Perona)
- Стефано Соатто (Stefano Soatto)
Оптимальный путь, по мнению профессора, — освоить базовые принципы по классическим вводным учебникам фундаментальной математики обработки изображений, после чего можно легко переходить к анализу современных научных публикаций.