Роберто Бондесан о Probabilistic Numeric CNNs: новый подход к непрерывным сигналам

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон беседует с исследователем искусственного интеллекта из компании Qualcomm Роберто Бондесаном. Главной темой обсуждения стала их совместная научная работа, представленная на престижной конференции ICLR и посвященная вероятностным численным сверточным нейросетям (Probabilistic Numeric CNNs). Эта технология открывает новые возможности для анализа непрерывных и неравномерно распределенных во времени или пространстве сигналов, предлагая встроенный механизм оценки неопределенности вычислений.

🔬 От фундаментальной физики к искусственному интеллекту 0:01

Путь Роберто Бондесана (Roberto Bondesan) в сферу искусственного интеллекта начался с академической науки. До прихода в компанию Qualcomm он активно занимался теоретической физикой, где применял методы глубового обучения для решения сложных физических задач. В частности, его исследования были сосредоточены на характеризации новых фаз материи и оценке их потенциала для квантовых вычислений.

В качестве классического примера из этой области ученый приводит модель Изинга. В данной модели рассматриваются бинарные элементы — спины, которые могут принимать значения «вверх» или «вниз». Согласно физическим законам, система способна находиться в двух фазах:

Упорядоченная фаза: наблюдается при низких температурах, когда все спины направлены в одну сторону.
Неупорядоченная фаза: возникает при высоких температурах, когда направления спинов становятся абсолютно случайными.

Поскольку характеризация состояний материалов представляет собой крайне сложную вычислительную задачу, физики начали активно использовать алгоритмы искусственного интеллекта. Примерно в 2017–2018 годах, погружаясь в развивающиеся методы машинного обучения для физических задач, Роберто Бондесан принял решение полностью сменить вектор карьеры и переключиться на фундаментальные исследования в области AI. Значительное влияние на этот шаг оказала публикация его будущих коллег по Qualcomm Тако Коэна (Taco Cohen) и Макса Веллинга (Max Welling) о сферических сверточных нейросетях (Spherical CNNs). Эта работа наглядно продемонстрировала, что интеграция физических принципов и симметрий в архитектуру нейросетей является чрезвычайно перспективным направлением.

После перехода в Qualcomm исследователь принял участие в нескольких крупных проектах:

Нейронное сжатие данных (Neural Data Compression): разработка автокодировщиков и генеративных моделей для эффективной передачи данных по каналам связи.
Квантовый искусственный интеллект (Quantum AI): исследование пересечений квантовых вычислений и глубокого обучения, что, по мнению гостя, способно радикально изменить индустрию в будущем.
Комбинаторная оптимизация: применение машинного обучения для решения прикладных математических задач, критически важных для современной промышленности.

🧩 Оптимизация производственных процессов и проектирование чипов 4:52

Комбинаторная оптимизация включает в себя классические математические задачи, такие как задача коммивояжера (Traveling Salesman Problem) или раскраска графов. Как отмечает Роберто Бондесан, за последние три-четыре года в этой области наметился серьезный прогресс благодаря глубокому обучению. Задача коммивояжера исторически выступает главным драйвером исследований, имея при этом прямые индустриальные приложения.

Среди ключевых практических приложений оптимизационных алгоритмов эксперт выделяет следующие направления:

Логистика транспортных потоков (Vehicle Routing): оптимизация маршрутов доставки для коммерческих компаний, направленная на минимизацию издержек.
Проектирование микросхем (Chip Design): автоматизация трассировки соединений между логическими вентилями и элементами памяти, а также их оптимальное размещение на кристалле для минимизации площади чипа.
Беспроводная связь (Wireless): решение задач кодирования и исправления ошибок (Error Correction) при передаче сигналов через зашумленные каналы.

По словам исследователя, такие повседневные задачи Qualcomm, как сжатие данных или квантование моделей, по своей природе также являются комбинаторными. Использование нейросетей позволяет адаптировать алгоритмы под конкретные распределения данных, что делает вычисления значительно быстрее по сравнению с классическими математическими солверами.

🔢 Вероятностные численные методы: борьба с погрешностями дискретизации 8:04

Основная проблема, которую решает новая научная работа Роберто Бондесана и его команды, заключается в обработке сигналов, которые невозможно представить в виде стандартной регулярной сетки. В качестве примеров можно представить временные ряды с пропусками или изображения, подвергшиеся неравномерному субсэмплированию. Мотивация авторов состоит в том, чтобы моделировать физические сигналы в их естественном, непрерывном представлении, а не в искусственно дискретизированном виде, неизбежном при вводе данных в компьютер.

Чтобы объяснить концепцию Probabilistic Numeric CNNs, гость подробно раскрывает суть самого термина «вероятностные численные методы» (Probabilistic Numerics). Это направление в статистике призвано количественно оценить неопределенность, возникающую в работе численных программ из-за дискретности входных данных.

Для наглядности Бондесан приводит аналогию с вычислением определенного интеграла:

Математическую функцию на непрерывном интервале можно вычислить аналитически в любой точке.
Из-за ограничений по памяти и времени компьютер вынужден брать выборку функции лишь в конечном дискретном наборе точек.
Вероятностные численные методы используют байесовский вывод (Bayesian inference) для оценки возникающей погрешности.
В качестве априорного распределения (prior) задается гауссовский процесс (Gaussian process) на множестве возможных функций.
После проведения измерений в дискретных точках априорное распределение обновляется до апостериорного (posterior).

В результате численная программа выдает не просто одно абстрактное число, а полноценное распределение вероятностей. Пик этого распределения указывает на наиболее вероятное значение, а его ширина отражает ошибку дискретизации. Ведущий Сэм Чаррингтон уточняет, что в данном контексте квантование и потеря точности происходят не по оси амплитуды (значений функции), а непосредственно в области ее определения — например, при регистрации событий через случайные, неравномерные промежутки времени. Гость полностью соглашается с этой формулировкой.

📐 Архитектура Probabilistic Numeric CNNs и дифференциальные уравнения 14:09

Разработанный учеными алгоритм переносит философию вероятностных численных методов в глубокое обучение. На первом этапе неравномерный временной ряд или субсэмплированное изображение подвергаются вероятностной интерполяции, формируя апостериорное распределение над пространством непрерывных функций. Основной технический вклад публикации заключается в создании нейросети, способной оперировать напрямую с непрерывными функциями, в отличие от классических CNN, работающих исключительно с дискретными векторами и тензорами.

Вместо хранения бесконечного числа точек компьютер оперирует функциональной формой — программным кодом, позволяющим вычислить значение функции в любой координате. Нелинейные слои такой сети работают привычным образом (нелинейность применяется к каждой точке индивидуально), однако архитектура линейных слоев была полностью переосмыслена.

Особенности реализации линейных слоев в новой архитектуре:

Использование уравнений в частных производных (PDE): линейная операция над входной непрерывной функцией задается через дифференциальное уравнение, где сама функция выступает в качестве начального условия.
Ограничение трансляционной эквивариантности: требование сохранения инвариантности к сдвигам, характерное для сверточных сетей, сужает класс допустимых дифференциальных уравнений до обобщенного уравнения диффузии.

Физический процесс диффузии можно представить как каплю красителя, растворяющуюся в стакане воды. Аналогичным образом входное изображение, закодированное в виде функции, контролируемо «размывается» во времени в рамках слоев нейросети. Для определенных конфигураций слоев авторам удалось реализовать аналитическое распространение функциональных форм в коде, что сделало вычисления точными и быстрыми.

На выходе из сети разработчики получают не только итоговое предсказание или метку класса, но и точную оценку неопределенности. Эта неопределенность рассчитывается для каждого промежуточного слоя и напрямую отражает нехватку информации в конкретных областях пространства или времени. Важным преимуществом такого подхода Бондесан называет возможность «активного сэмплирования»: вычисляя производную неопределенности по входным координатам, алгоритм может подсказать, в каких точках необходимо произвести дополнительные измерения, чтобы максимально повысить точность модели при минимальных затратах ресурсов.

📊 Результаты бенчмарков и квантовые перспективы технологии 20:10

Роберто Бондесан подчеркивает, что главным идеологом и ведущим автором исследования стал Марк Финци (Marc Finzi), проходивший летнюю стажировку в команде Qualcomm. Команда спроектировала модель, которая работает в непрерывном континууме, благодаря чему достигается строгая эквивариантность относительно произвольных поворотов и сдвигов, без ошибок округления, неизбежных при расчетах на дискретных кристаллических решетках.

Эффективность Probabilistic Numeric CNNs была протестирована на двух ключевых наборах данных:

Классификация суперпиксельных изображений (Super-pixel classification): на датасетах, где структура регулярной пиксельной сетки была умышленно нарушена, новая модель установила мировой рекорд (State-of-the-Art), продемонстрировав трехкратное снижение ошибки на тестовой выборке по сравнению с существующими аналогами.
Медицинские временные ряды (Medical time series): при анализе реальных госпитальных данных, где жизненные показатели пациентов (например, артериальное давление) фиксируются медперсоналом нерегулярно, модель показала высокую конкурентоспособность в задаче прогнозирования исходов заболеваний.

В качестве одного из наиболее захватывающих долгосрочных направлений развития технологии Бондесан видит ее интеграцию с квантовыми оптическими компьютерами. В квантовой оптике состояния света математически очень близки к гауссовским процессам. Это открывает прямую дорогу к созданию квантовых нейросетей, где непрерывные физические поля будут естественным образом кодировать информацию, перекликаясь с аппаратом квантовой теории поля (Quantum Field Theory), используемой для описания элементарных частиц на ускорителях уровня ЦЕРН (CERN).

🔄 Инновации Qualcomm на ICLR: адаптивное сжатие и геометрический AI 31:01

Помимо доклада о вероятностных сверточных сетях, исследовательская группа Qualcomm представила на конференции ICLR ряд других значимых работ. Одна из них посвящена адаптивному нейросетевому сжатию данных. Традиционные легковесные нейрокодеки часто страдают от плохой генерализации, когда тестовые данные существенно отличаются от обучающей выборки.

Авторы предложили оригинальную концепцию fine-tuning сжатия на стороне отправителя:

Отправитель, обладающий высокой вычислительной мощностью, дообучает нейрокодек непосредственно на передаваемом тестовом видеопотоке или изображении.
На целевое устройство (например, мобильный телефон) передается не только сжатый видеосигнал, но и так называемая «дельта» — минимальные изменения весов адаптированной нейросети.
Совместная оптимизация количества передаваемых бит и точности восстановления позволяет существенно превзойти по качеству стандартные методы, полностью занимающие всю доступную полосу пропускания несжатым стримом.

Сэм Чаррингтон заметил, что данная идея кажется контринтуитивной с точки зрения классической теории информации и фундаментальных ограничений Найквиста или Хэмминга. Однако Бондесан пояснил, что этот метод не нарушает теоретических границ пропускной способности каналов, а лишь позволяет алгоритмам оперировать гораздо ближе к их предельному теоретическому максимуму.

Еще одна важная публикация исследователей Qualcomm касается разработки Mesh CNN — сверточных сетей для работы с трехмерными полигональными сетками (мешами), применяемыми в задачах сегментации форм и 3D-реконструкции. Обычные графовые нейросети (GNN) не учитывают геометрию пространства: они не «видят» углов между ребрами графа при изменении их пространственного положения. Использование калибровочной эквивариантности (gauge equivariance) позволило встроить геометрические свойства непосредственно в структуру графовых сверток, что кардинально улучшило точность работы на трехмерных объектах. Также в рамках ICLR команда Qualcomm совместно с Калифорнийским университетом в Ирвайне (UC Irvine) и Disney Research организовала специализированный воркшоп по нейросетевому сжатию данных.

🔮 Квантово-деформированные нейросети: моделирование на масштабах реального мира 38:09

Поскольку физические квантовые процессоры нужного масштаба еще недоступны для полноценного развертывания глубокого обучения, исследовательская группа под руководством Бондесана и Макса Веллинга разработала теоретический мост — квантово-деформированные нейросети (Quantum Deformed Neural Networks).

Суть концепции заключается в постепенном переходе от классических моделей к квантовым:

Классическая бинарная или вероятностная нейросеть отображается на архитектуру квантового компьютера на базе кубитов, которые выступают аналогами классических битов.
В архитектуру постепенно внедряются чисто квантовые эффекты, такие как квантовая запутанность (entanglement) и суперпозиция (superposition).
Создается промежуточный вычислительный режим, который все еще можно симулировать на обычных компьютерах с помощью математического аппарата тензорных сетей (Tensor Networks) из квантовой физики.

По словам Роберто Бондесана, данный метод позволил зафиксировать умеренный прирост точности по сравнению с классическими сетями и представил первый в истории науки пример симуляции квантовой модели на масштабах реальных данных. Эксперт выразил глубокую уверенность в том, что в ближайшие годы синергия машинного обучения, квантовых вычислений и комбинаторной оптимизации приведет к масштабному технологическому прорыву в промышленном секторе, позволяя адаптировать алгоритмы под прикладные задачи любой сложности — от управления глобальной логистикой до генерации новых стратегий в духе AlphaGo.