# Как оценивать генеративные модели: от сжатия до качества изображений

Источник: https://www.youtube.com/watch?v=MJt_ahtO-to
Канал: Stanford Online
Опубликовано: 06.05.2024

---

## 📊 Оценка качества генеративных моделей: вызовы и подходы
[[JUMP:00:05]]

В рамках курса Stanford CS236 лекторы обсуждают проблему оценки качества генеративных моделей — сложную область, где до сих пор не существует единого консенсуса. В отличие от дискриминативных моделей, где прогресс легко измерить с помощью четко определенных функций потерь (например, точности классификации), оценка генеративных систем требует комплексного подхода из-за многообразия задач: от оценки плотности вероятности до создания эстетически привлекательных изображений.

### 📉 Оценка плотности и сжатие данных
[[JUMP:08:53]]

Если целью модели является оценка плотности вероятности, наиболее естественным инструментом становится **максимизация правдоподобия (likelihood)**.

*   **Принцип сжатия:** Использование максимизации правдоподобия эквивалентно минимизации KL-дивергенции, что по сути является процессом сжатия данных. Модель, которая лучше сжимает данные, лучше их «понимает».
*   **Perplexity:** В контексте больших языковых моделей (LLM) используется метрика «перплексия», представляющая собой масштабированную версию логарифмического правдоподобия.
*   **Премия Хаттера (Hutter Prize):** Существует инициатива с призовым фондом в $500 000, направленная на развитие алгоритмов сжатия Wikipedia, исходя из гипотезы, что эффективное сжатие знаний напрямую коррелирует с достижением высокого уровня интеллекта (AGI).

Однако у метода есть серьезные ограничения: сжатие не учитывает важность информации. С точки зрения KL-дивергенции, бит, кодирующий жизненно важную информацию, равен биту, предсказывающему погоду, что не всегда соответствует целям прикладных задач.

### 🖼️ Оценка качества образцов
[[JUMP:34:25]]

При работе с GAN или диффузионными моделями, где прямое вычисление вероятности затруднено, исследователи используют другие методы:

1.  **Оценка людьми:** Считается «золотым стандартом», но является нешкалируемой и дорогой. Примером может служить методика, оценивающая время, необходимое человеку, чтобы отличить реальное изображение от синтетического: чем дольше процесс, тем выше качество генерации.
2.  **Inception Score (IS):** Оценивает два параметра: **резкость (sharpness)** — уверенность классификатора в предсказании меток синтетических изображений, и **разнообразие (diversity)** — энтропию маргинального распределения меток.
3.  **FID Score (Fréchet Inception Distance):** Сравнивает распределение признаков (извлеченных предобученной сетью, например, Inception Net) реальных и синтетических данных, аппроксимируя их многомерными гауссианами.
4.  **KID Score (Kernel Inception Distance):** Аналог FID, использующий методы двухвыборочного теста (two-sample test) на базе ядерных функций, что делает метрику более принципиальной, но вычислительно затратной.

### 🤖 Обучение представлений и Prompt Engineering
[[JUMP:58:56]]

Когда генеративная модель используется для извлечения признаков (unsupervised learning), оценка становится еще сложнее.

*   **Кластеризация:** Модели оцениваются через способность группировать данные по смыслу, используя метрики типа V-measure или индексы однородности кластеров.
*   **Дизангтанглмент (Disentanglement):** Стремление научить модель разделять независимые факторы вариации (например, цвет кожи или возраст на фото). Важно отметить: теоретически доказано, что полное обучение «распутанных» представлений без меток данных невозможно.
*   **Prompt Engineering:** Для языковых моделей альтернативой дообучению (fine-tuning) стало использование промптов. Модель, обученная на сжатии текста, может решать задачи через контекстные подсказки, предсказывая следующее слово в структурированном шаблоне.

На данный момент индустрия склоняется к использованию масштабных бенчмарков, таких как **HELM (Holistic Evaluation of Language Models)** от Стэнфорда, которые включают сотни задач и метрик для всесторонней оценки способностей моделей,.