Как оценивать генеративные модели: от сжатия до качества изображений

📊 Оценка качества генеративных моделей: вызовы и подходы 0:05

В рамках курса Stanford CS236 лекторы обсуждают проблему оценки качества генеративных моделей — сложную область, где до сих пор не существует единого консенсуса. В отличие от дискриминативных моделей, где прогресс легко измерить с помощью четко определенных функций потерь (например, точности классификации), оценка генеративных систем требует комплексного подхода из-за многообразия задач: от оценки плотности вероятности до создания эстетически привлекательных изображений.

📉 Оценка плотности и сжатие данных 8:53

Если целью модели является оценка плотности вероятности, наиболее естественным инструментом становится максимизация правдоподобия (likelihood).

Принцип сжатия: Использование максимизации правдоподобия эквивалентно минимизации KL-дивергенции, что по сути является процессом сжатия данных. Модель, которая лучше сжимает данные, лучше их «понимает».
Perplexity: В контексте больших языковых моделей (LLM) используется метрика «перплексия», представляющая собой масштабированную версию логарифмического правдоподобия.
Премия Хаттера (Hutter Prize): Существует инициатива с призовым фондом в $500 000, направленная на развитие алгоритмов сжатия Wikipedia, исходя из гипотезы, что эффективное сжатие знаний напрямую коррелирует с достижением высокого уровня интеллекта (AGI).

Однако у метода есть серьезные ограничения: сжатие не учитывает важность информации. С точки зрения KL-дивергенции, бит, кодирующий жизненно важную информацию, равен биту, предсказывающему погоду, что не всегда соответствует целям прикладных задач.

🖼️ Оценка качества образцов 34:25

При работе с GAN или диффузионными моделями, где прямое вычисление вероятности затруднено, исследователи используют другие методы:

Оценка людьми: Считается «золотым стандартом», но является нешкалируемой и дорогой. Примером может служить методика, оценивающая время, необходимое человеку, чтобы отличить реальное изображение от синтетического: чем дольше процесс, тем выше качество генерации.
Inception Score (IS): Оценивает два параметра: резкость (sharpness) — уверенность классификатора в предсказании меток синтетических изображений, и разнообразие (diversity) — энтропию маргинального распределения меток.
FID Score (Fréchet Inception Distance): Сравнивает распределение признаков (извлеченных предобученной сетью, например, Inception Net) реальных и синтетических данных, аппроксимируя их многомерными гауссианами.
KID Score (Kernel Inception Distance): Аналог FID, использующий методы двухвыборочного теста (two-sample test) на базе ядерных функций, что делает метрику более принципиальной, но вычислительно затратной.

🤖 Обучение представлений и Prompt Engineering 58:56

Когда генеративная модель используется для извлечения признаков (unsupervised learning), оценка становится еще сложнее.

Кластеризация: Модели оцениваются через способность группировать данные по смыслу, используя метрики типа V-measure или индексы однородности кластеров.
Дизангтанглмент (Disentanglement): Стремление научить модель разделять независимые факторы вариации (например, цвет кожи или возраст на фото). Важно отметить: теоретически доказано, что полное обучение «распутанных» представлений без меток данных невозможно.
Prompt Engineering: Для языковых моделей альтернативой дообучению (fine-tuning) стало использование промптов. Модель, обученная на сжатии текста, может решать задачи через контекстные подсказки, предсказывая следующее слово в структурированном шаблоне.

На данный момент индустрия склоняется к использованию масштабных бенчмарков, таких как HELM (Holistic Evaluation of Language Models) от Стэнфорда, которые включают сотни задач и метрик для всесторонней оценки способностей моделей,.