Янник Кильхер: «Генерация наборов изображений через энергетические модели»

Генеративные модели для наборов изображений: новый подход к пониманию идентичности 0:00

Янник Кильхер (Yannic Kilcher) разобрал научную работу, посвященную созданию генеративных моделей для наборов изображений (Set Distribution Networks). Основная идея исследования сотрудников Apple заключается в создании системы, способной кодировать «идентичность» группы изображений в скрытый вектор и генерировать новые ракурсы или примеры, сохраняя общие черты объекта, не полагаясь на классические метки классов.

Архитектурные принципы и кодирование идентичности 8:14

Для реализации этой задачи авторы предлагают архитектуру, состоящую из трех ключевых компонентов: энкодера, дискриминатора и генератора.

Энкодер: Принимает набор изображений, пропуская каждое через сверточную нейронную сеть (CNN). Важнейшим свойством здесь является инвариантность к порядку элементов в наборе. Энкодер использует операцию усреднения (pooling) по всем входным изображениям, что позволяет модели извлекать общую структуру, игнорируя конкретный ракурс.
Бинаризация: После получения скрытого представления применяется операция бинаризации, «зажимающая» значения в вектор из 1 и -1. По мнению Кильхера, такой подход позволяет кодировать значительно большее количество «идентичностей», чем при использовании стандартного One-Hot кодирования, так как вектор фиксированной длины D может представлять $2^D$ комбинаций.
Генератор: Получает на вход вектор идентичности Z и случайный шум, создавая набор изображений, соответствующих этой «сущности».

Энергетические модели и обучение 27:04

Авторы формулируют задачу через призму энергетических моделей (Energy-Based Models). Суть метода в том, что функция энергии назначает «высокое значение» для комбинаций изображений и идентификаторов, которые модель считает неубедительными (несоответствующими друг другу), и «низкое» — для естественных пар.

Дискриминатор как функция энергии: Он должен определять, поступает ли набор из реальных данных или от генератора. Важной находкой авторов стало внедрение дополнительного этапа реконструкции, где дискриминатор пытается «восстановить» входные изображения. Кильхер отмечает, что это помогает стабилизировать процесс обучения на ранних этапах.
Вариационная аппроксимация: Поскольку точное вычисление распределения вероятностей для всех возможных наборов изображений невозможно (нельзя перебрать все комбинации в мире), авторы используют вариационный подход. Вместо прямого расчета они минимизируют нижнюю границу функции потерь, используя генератор для создания обучающих выборок.

Оценка результатов и дискуссия 49:03

Оценка таких моделей сложна, так как нельзя просто сравнить пиксели. Исследователи прибегают к 3D-моделированию (для объектов вроде автомобилей) или использованию инструментов распознавания лиц.

Качество идентичности: Модель демонстрирует способность сохранять «дух» идентичности даже при генерации новых примеров, которых не было в обучающей выборке.
Критика подхода: Янник Кильхер выражает скепсис относительно эффективности бинарного кодирования. Он предполагает, что модель может в итоге обучаться не на «идентичность» в глубоком смысле, а просто на дискретные признаки (цвет волос, освещенность, форма головы), что делает её, по сути, вариацией дискретного автоэнкодера, а не тем, что изначально заявляли авторы.

Тем не менее, результаты, показанные в видео, подтверждают, что при увеличении количества входных изображений в наборе (увеличение числа «видов»), качество реконструкции и точность передачи идентичности заметно возрастают.