Ауке Виггерс о нейросетевом сжатии данных и будущем видеотрансформеров

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон обсудил с исследователем из Qualcomm Ауке Виггерсом новейшие достижения в области нейросетевого сжатия данных, представленные на престижной конференции ICLR. В центре внимания оказалась инновационная работа по использованию трансформеров для компрессии видео, способная кардинально изменить подходы к передаче медиапотоков высокого разрешения. Собеседники подробно разобрали, как генеративный искусственный интеллект устраняет избыточность в файлах и почему традиционные ручные алгоритмы кодирования постепенно уступают место глубокому обучению.

🤖 От автопилота к сжатию данных: карьерный путь Ауке Виггерса 0:00

Ауке Виггерс (Auke Wiggers) начал свой путь в сфере машинного обучения в 2012 году во время учебы в Амстердамском университете (UVA). В то время его сокурсники, обладавшие сильной предпринимательской жилкой, уже во время магистратуры основывали небольшие технологические компании. В конечном итоге они пригласили Виггерса присоединиться к их стартапу под названием Scyfer. Среди основателей этой команды были знаковые для индустрии ИИ фигуры — профессор Макс Веллинг (ныне работающий в Microsoft) и Тако Коэн, известный своими фундаментальными исследованиями в области групповых эквивариантных нейросетей.

Спустя несколько лет успешной работы стартап Scyfer был поглощен технологическим гигантом Qualcomm, где Виггерс работает уже около четырех с половиной лет. В начале своей карьеры в Qualcomm он занимался применением обучения с подкреплением (reinforcement learning) для систем автономного вождения. Однако последние два с половиной — три года его исследовательский фокус полностью сместился на нейросетевое сжатие данных с использованием генеративных моделей.

📉 Нейросетевое сжатие: как генеративные модели экономят биты 1:57

Нейросетевое сжатие данных является относительно молодым направлением — первые фундаментальные работы в этой области появились в 2016–2017 годах. По сути, это изящное и практичное применение моделей оценки правдоподобия (likelihood models). Математический аппарат теории информации гласит: если генеративная модель способна точно оценить вероятность появления того или иного элемента входных данных (будь то изображение, аудио или видео), этот элемент можно максимально эффективно сжать с помощью энтропийного кодирования, полностью выжав из него избыточность.

Основное отличие компрессионных моделей от классических больших иерархических вариационных автокодировщиков (VAE) заключается в работе со скрытым пространством (latent space). В обычных генеративных моделях скрытое пространство непрерывно. Однако для передачи сжатых данных без потерь его необходимо квантовать — переводить непрерывные значения с плавающей точкой в дискретные целочисленные представления.

Как объясняет Виггерс, в академических исследованиях чаще всего используются модели, где вычисления происходят с плавающей точкой, но само скрытое пространство квантуется для обеспечения точности передачи информации на другие устройства. Когда же дело доходит до создания прототипов и развертывания кодеков на реальных устройствах, квантованию подвергается уже вся модель целиком, включая веса и активации, что критически важно для обеспечения фиксированной точности и вычислительной эффективности на мобильном оборудовании.

🎬 Специфика видео: временная избыточность и перцептивное качество 5:10

Сжатие видео накладывает гораздо больше жестких ограничений, чем компрессия статических изображений. В первую очередь это связано с особенностями человеческого восприятия. Для человека крайне важна визуальная консистентность видеопотока во времени и плавность движений. Если кодек работает нестабильно от кадра к кадру, зритель сразу замечает неприятное дерганье или специфический «шум».

Вторая сложность и одновременно главное преимущество видео — это огромная временная избыточность (temporal redundancy). Большинство последующих кадров в видео практически идентичны предыдущим, особенно если речь идет о статичном фоне. Нейросетевые кодеки используют этот фактор, избегая повторной передачи уже известной на стороне получателя информации.

Разработчики активно внедряют новые методы для улучшения субъективного, или перцептивного, качества видео. По словам Виггерса, одним из наиболее перспективных направлений является использование компрессии на базе генеративно-состязательных сетей (GAN), которые способны буквально «галлюцинировать» мелкие текстуры и детали, отсутствующие в исходном сжатом битовом потоке. Еще один эффективный подход — кодирование с учетом областей интереса (Region of Interest, ROI). Например, во время видеозвонка фон не имеет большого значения, поэтому кодек может тратить основную часть битрейта на точную передачу лица спикера или демонстрируемого текста.

Разработчики нейрокодеков не создают технологию в вакууме, а активно заимствуют опыт, накопленный за 40–50 лет создания традиционных ручных алгоритмов, таких как компенсация движения. При этом нейросети позволяют заменять отдельные компоненты классических кодеков на более эффективные аналоги с точки зрения соотношения скорости передачи данных и искажения (rate-distortion).

⚡ Трансформеры против конволюций: архитектура Swin в компрессии данных 13:03

Внедрение архитектуры трансформеров совершило революцию в компьютерном зрении и закономерно затронуло сферу сжатия данных. На ICLR команда Qualcomm представила совместную работу коллег Ауке Виггерса — Янг Иньяо и Тако Коэна, посвященную трансформерам для сжатия видео. До недав времени большинство улучшений в кодеках касалось оптимизации моделей распределения вероятностей (likelihood models), тогда как сам блок трансформации данных (transform), переводящий изображение в компактное скрытое представление, оставался сверточным. Исследователи обнаружили, что замена сверточных слоев блоками Vision Transformer (ViT) дает огромный прирост эффективности.

Применение трансформеров к визуальным задачам имеет свои особенности:

Изображение разбивается на сетку локальных патчей, которые обрабатываются аналогично токенам (словам) в языковых моделях.
В отличие от задач классификации или детекции объектов, где на выходе нужен один тег, кодек должен генерировать плотную и точную реконструкцию всего кадра.

Главная проблема классических ViT — использование глобального механизма самовнимания (global self-attention), из-за чего потребление оперативной памяти растет квадратично по отношению к размеру изображения. Для обработки видео высокого разрешения это неприемлемо. Решением стало использование архитектуры Swin Transformer.

Она вычисляет самовнимание внутри локальных сдвигающихся окон, которые затем агрегируются на более высоких уровнях иерархии аналогично сверточным сетям. Такой подход снижает пространственную сложность до линейной. Взяв за основу известную архитектуру hyperprior, предложенную Google в 2018 году, команда заменила обычные и транспонированные свертки на их эквиваленты из Swin Transformer. Результатом стала архитектура, которая при аналогичном количестве вычислительных операций (MAC) обеспечивает гораздо более высокое качество сжатия.

🔍 Эффективное рецептивное поле и скрытое пространство 18:46

Чтобы детально разобраться, почему Swin-трансформеры превосходят сверточные сети, исследователи визуализировали их эффективное рецептивное поле (effective receptive field). Используя свойство полной дифференцируемости нейросети, они математически вычисляли градиент относительно входного изображения, чтобы понять, как изменение конкретных пикселей влияет на финальные признаки. Выяснились фундаментальные различия:

У сверточных моделей размер рецептивного поля всегда оставался фиксированным (примерно 30 на 30 пикселей) независимо от типа задачи.
У моделей Swin Transformer размер поля гибко адаптировался: при обработке одиночного кадра оно оставалось маленьким для экономии ресурсов, а в задачах оценки движения между двумя кадрами видео — значительно расширялось, захватывая широкий контекст.

По мнению Виггерса, это доказывает, что Swin-модели способны самостоятельно определять оптимальный объем контекста для принятия решений. Кроме того, анализ скрытого пространства показал, что Swin-модели распределяют информацию по каналам более равномерно, чем CNN. Это открывает отличные перспективы для схем прогрессивного декодирования (когда передача даже половины каналов позволяет восстановить базовые контуры изображения) и делает кодек устойчивым к потере пакетов данных в нестабильных сетях передачи. Эксперименты с маскированием каналов подтвердили, что трансформеры выдают более чистую картинку при повреждении битового потока.

🔬 Другие прорывы на ICLR: проекты CONFESS и управляемые сверточные сети 28:22

Помимо работы над кодеками, коллеги Виггерса представили на ICLR еще два важных исследования. Первое — проект CONFESS, посвященный контрастивному обучению в условиях сильного междоменного сдвига (cross-domain view setting). Метод актуален, когда модель, обученную на огромном датасете (например, ImageNet), нужно применить в совершенно другой сфере, например, для анализа медицинских рентгеновских снимков.

Алгоритм CONFESS включает три шага: самообучение без учителя (self-supervised pre-training) для формирования общих признаков, обучение специальной маски для выбора релевантных признаков под целевой домен и финальную тонкую настройку. По мнению Ауке Виггерса, такой подход незаменим для персонализации ИИ-моделей под конкретных пользователей, когда объем целевых данных крайне мал.

Второй проект касается фундаментальной теории так называемых управляемых сверточных сетей (Steerable CNNs). Обычные свертки инвариантны только к сдвигам (translations). Групповые эквивариантные сети стремятся учитывать и другие геометрические симметрии — отражения, перевороты. Коллега Ауке, Габриэлла, провела глубокий теоретический анализ пространства управляемых фильтров и создала универсальную параметризацию для них.

Если раньше для учета специфических симметрий (например, при анализе сферических данных о погоде на Земле) исследователям приходилось вручную кропотливо прописывать архитектуру под каждую задачу, то теперь создана автоматическая процедура генерации таких фильтров. Исходный код проекта полностью открыт для сообщества.

🔮 Будущее технологий сжатия: диффузионные модели и запуск на смартфонах 33:41

Говоря о долгосрочных перспективах, Ауке Виггерс выражает наибольший оптимизм по поводу развития перцептивного качества сжатия. Исследователь считает крайне многообещающим адаптацию диффузионных вероятностных моделей (diffusion probabilistic models) для нужд компрессии. Диффузионные сети великолепно генерируют реалистичные детали, однако их интеграция в кодеки пока сопряжена с серьезными математическими и вычислительными трудностями.

По мнению гостя, идеальным и наиболее элегантным решением остаются сквозные (end-to-end) нейросетевые кодеки, где кодировщик, априорная модель и декодировщик обучены совместно с использованием кастомных функций потерь. В качестве примера он приводит успешную разработку группы Google Perception под названием HiFiC (High-Fidelity Generative Image Compression), где в качестве декодера используется условный GAN.

Тем не менее, сквозные архитектуры на данный момент остаются вычислительно тяжелыми. В связи с этим в индустрии, включая команды Google и Qualcomm, наметился сильный тренд на создание практичных, менее требовательных к ресурсам моделей, способных эффективно работать непосредственно на аппаратном уровне потребительских смартфонов. Недавний доклад Дэвида Миннена из Google на конференции ICIP стал открытым призывом к действию: сообщество должно сфокусироваться на оптимизации вычислений, сохраняя высокое качество сжатия. Ауке Виггерс подытожил, что хотя сквозные модели сейчас тяжелы, разработчики уже доказали реализуемость декодирования прямо на пользовательских устройствах.