Янник Кильхер: «Генерация наборов изображений через энергетические модели»

Yannic Kilcher 5,4 тыс. 59 мин 2 мин 29.06.2020
Главное

Генеративные модели для наборов изображений: новый подход к пониманию идентичности 0:00

Янник Кильхер (Yannic Kilcher) разобрал научную работу, посвященную созданию генеративных моделей для наборов изображений (Set Distribution Networks). Основная идея исследования сотрудников Apple заключается в создании системы, способной кодировать «идентичность» группы изображений в скрытый вектор и генерировать новые ракурсы или примеры, сохраняя общие черты объекта, не полагаясь на классические метки классов.

Архитектурные принципы и кодирование идентичности 8:14

Для реализации этой задачи авторы предлагают архитектуру, состоящую из трех ключевых компонентов: энкодера, дискриминатора и генератора.

Энергетические модели и обучение 27:04

Авторы формулируют задачу через призму энергетических моделей (Energy-Based Models). Суть метода в том, что функция энергии назначает «высокое значение» для комбинаций изображений и идентификаторов, которые модель считает неубедительными (несоответствующими друг другу), и «низкое» — для естественных пар.

Оценка результатов и дискуссия 49:03

Оценка таких моделей сложна, так как нельзя просто сравнить пиксели. Исследователи прибегают к 3D-моделированию (для объектов вроде автомобилей) или использованию инструментов распознавания лиц.

Тем не менее, результаты, показанные в видео, подтверждают, что при увеличении количества входных изображений в наборе (увеличение числа «видов»), качество реконструкции и точность передачи идентичности заметно возрастают.

💬 Цитаты

«Если вы хотите создать модель, которая понимает, что перед ней разные ракурсы одного и того же объекта, вам нужно отделить структуру от точки зрения.»

Янник Кильхер 03:05

«Использование бинарных векторов позволяет кодировать гораздо большее число идентификаторов, чем при классическом One-Hot кодировании.»

Янник Кильхер 13:23
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Энергетическая модель (EBM)
Функциональный подход, где вероятность данных зависит от значения энергии: низкая энергия соответствует высокой вероятности.
Бинаризация
Приведение значений вектора к фиксированному набору из -1 и 1 для дискретизации скрытого пространства.
Вариационная аппроксимация
Метод упрощения сложных вероятностных распределений путем поиска наиболее близкого распределения из простого семейства.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Apple Energy-Based Models Yannic Kilcher