Inconsistency in Conference Peer Review: Revisiting the 2014 NeurIPS Experiment (Paper Explained)

В 2014 году на конференции по машинному обучению NeurIPS (тогда ещё NIPS) был проведён амбициозный эксперимент по проверке объективности научного рецензирования. Исследователи Корина Кортес и Нил Д. Лоуренс, бывшие в то время сопредседателями программного комитета, решили выяснить, насколько случайным является процесс отбора статей. Спустя семь лет они опубликовали ретроспективный анализ, который подробно разобрал Янник Кильчер в своём новом видео.

🎲 Эксперимент 2014 года: Лотерея для учёных 0:00

Основой исследования стал эксперимент, в рамках которого 10% всех присланных на NeurIPS работ (170 статей) были направлены на проверку не одному, а сразу двум независимым программным комитетам. Каждый комитет состоял из своих рецензентов и председателей, которые принимали решение об одобрении или отклонении публикации, не зная о действиях своих коллег.

Результаты эксперимента оказались отрезвляющими:

Комитеты разошлись во мнениях относительно 43 статей из 170 (около 25% случаев).
Если рассматривать только принятые статьи, то выяснилось, что при замене одного комитета на другой состав конференции обновился бы наполовину.
Фактически, 50% работ, представленных в залах конференции, находятся там в силу случайного выбора конкретной группы рецензентов.

📊 Модель калибровки: Математика субъективности 5:46

Чтобы понять природу таких расхождений, Янник Кильчер разбирает предложенную авторами математическую модель оценки статьи. Она делит итоговый балл рецензента ($y_{ij}$) на три составляющие:

$$y_{ij} = f_i + b_j + e_{ij}$$

Где:

$f_i$ — объективное качество статьи (то, что рецензенты должны определить);
$b_j$ — систематическое смещение (биас) конкретного рецензента (кто-то всегда ставит низкие баллы, кто-то — высокие);
$e_{ij}$ — субъективная добавка или штраф (личное отношение рецензента к конкретной работе) [07: