В 2014 году на конференции по машинному обучению NeurIPS (тогда ещё NIPS) был проведён амбициозный эксперимент по проверке объективности научного рецензирования. Исследователи Корина Кортес и Нил Д. Лоуренс, бывшие в то время сопредседателями программного комитета, решили выяснить, насколько случайным является процесс отбора статей. Спустя семь лет они опубликовали ретроспективный анализ, который подробно разобрал Янник Кильчер в своём новом видео.
🎲 Эксперимент 2014 года: Лотерея для учёных 0:00
Основой исследования стал эксперимент, в рамках которого 10% всех присланных на NeurIPS работ (170 статей) были направлены на проверку не одному, а сразу двум независимым программным комитетам. Каждый комитет состоял из своих рецензентов и председателей, которые принимали решение об одобрении или отклонении публикации, не зная о действиях своих коллег.
Результаты эксперимента оказались отрезвляющими:
- Комитеты разошлись во мнениях относительно 43 статей из 170 (около 25% случаев).
- Если рассматривать только принятые статьи, то выяснилось, что при замене одного комитета на другой состав конференции обновился бы наполовину.
- Фактически, 50% работ, представленных в залах конференции, находятся там в силу случайного выбора конкретной группы рецензентов.
📊 Модель калибровки: Математика субъективности 5:46
Чтобы понять природу таких расхождений, Янник Кильчер разбирает предложенную авторами математическую модель оценки статьи. Она делит итоговый балл рецензента ($y_{ij}$) на три составляющие:
$$y_{ij} = f_i + b_j + e_{ij}$$
Где:
- $f_i$ — объективное качество статьи (то, что рецензенты должны определить);
- $b_j$ — систематическое смещение (биас) конкретного рецензента (кто-то всегда ставит низкие баллы, кто-то — высокие);
- $e_{ij}$ — субъективная добавка или штраф (личное отношение рецензента к конкретной работе) [07: