Как оценивать генеративные модели: от сжатия до качества изображений

Stanford Online 16,1 тыс. 1 ч 21 мин 2 мин 06.05.2024
Главное

📊 Оценка качества генеративных моделей: вызовы и подходы 0:05

В рамках курса Stanford CS236 лекторы обсуждают проблему оценки качества генеративных моделей — сложную область, где до сих пор не существует единого консенсуса. В отличие от дискриминативных моделей, где прогресс легко измерить с помощью четко определенных функций потерь (например, точности классификации), оценка генеративных систем требует комплексного подхода из-за многообразия задач: от оценки плотности вероятности до создания эстетически привлекательных изображений.

📉 Оценка плотности и сжатие данных 8:53

Если целью модели является оценка плотности вероятности, наиболее естественным инструментом становится максимизация правдоподобия (likelihood).

Однако у метода есть серьезные ограничения: сжатие не учитывает важность информации. С точки зрения KL-дивергенции, бит, кодирующий жизненно важную информацию, равен биту, предсказывающему погоду, что не всегда соответствует целям прикладных задач.

🖼️ Оценка качества образцов 34:25

При работе с GAN или диффузионными моделями, где прямое вычисление вероятности затруднено, исследователи используют другие методы:

  1. Оценка людьми: Считается «золотым стандартом», но является нешкалируемой и дорогой. Примером может служить методика, оценивающая время, необходимое человеку, чтобы отличить реальное изображение от синтетического: чем дольше процесс, тем выше качество генерации.
  2. Inception Score (IS): Оценивает два параметра: резкость (sharpness) — уверенность классификатора в предсказании меток синтетических изображений, и разнообразие (diversity) — энтропию маргинального распределения меток.
  3. FID Score (Fréchet Inception Distance): Сравнивает распределение признаков (извлеченных предобученной сетью, например, Inception Net) реальных и синтетических данных, аппроксимируя их многомерными гауссианами.
  4. KID Score (Kernel Inception Distance): Аналог FID, использующий методы двухвыборочного теста (two-sample test) на базе ядерных функций, что делает метрику более принципиальной, но вычислительно затратной.

🤖 Обучение представлений и Prompt Engineering 58:56

Когда генеративная модель используется для извлечения признаков (unsupervised learning), оценка становится еще сложнее.

На данный момент индустрия склоняется к использованию масштабных бенчмарков, таких как HELM (Holistic Evaluation of Language Models) от Стэнфорда, которые включают сотни задач и метрик для всесторонней оценки способностей моделей,.

💬 Цитаты

«Being able to compress well is closely related to intelligence.»

Лектор Stanford CS236 15:50

«The longer it takes for people to distinguish real from fake, the better the samples are.»

Лектор Stanford CS236 36:59
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
KL-дивергенция
Мера различия между двумя вероятностными распределениями.
Perplexity
Метрика оценки языковых моделей, основанная на предсказательной способности (масштабированное правдоподобие).
Mode collapse
Проблема GAN, когда модель генерирует ограниченное разнообразие выходов, игнорируя вариативность данных.
Disentanglement
Свойство латентного пространства, где отдельные переменные соответствуют понятным факторам вариации данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Stanford CS236 Inception Score FID Score Large Language Models Probability density estimation