Янник Кильчер: «Рецензирование научных статей на NeurIPS превратилось в лотерею»

В 2021 году организаторы престижной ИИ-конференции NeurIPS провели масштабный эксперимент по повторному рецензированию научных статей, результаты которого вызвали бурную дискуссию в научном сообществе. Популяризатор машинного обучения Янник Кильчер подробно разобрал собранную статистику и пришел к выводу, что академический отбор критически нестабилен. Автор утверждает, что текущая система экспертной оценки превратилась в лотерею, которая вредит карьерам молодых исследователей, и предлагает радикальную реформу системы присуждения ученых степеней.

🎲 Идеальный генератор случайных чисел 0:00

Генерация истинно случайных чисел — сложнейшая техническая задача, для решения которой человечество веками ищет хаотические физические процессы. Чтобы получить настоящую случайность, инженерам приходится измерять атмосферный или тепловой шум. Существуют даже специализированные коммерческие сервисы, такие как random.org, которые продают доступ к истинным случайным числам, полученным на основе природных явлений. Однако Янник Кильчер иронично отмечает, что ИТ-индустрия наконец-то нашла идеальный альтернативный источник абсолютного хаоса — и это официальный процесс рецензирования статей на конференции NeurIPS.

Корни этой проблемы уходят в 2014 год, когда организаторы NeurIPS впервые решились на смелый эксперимент. Они разделили пул поданных научных работ и направили определенную часть статей не одному, а двум абсолютно независимым комитетам рецензентов, чтобы проверить, насколько их оценки будут коррелировать между собой.

📊 Наследие 2014 года и новые данные 0:53

Результаты эксперимента 2014 года оказались удручающими для академической среды. Исследователи, проанализировавшие долгосрочные последствия этого разделения, выяснили, что оценки рецензентов практически никак не коррелируют с последующей реальной цитируемостью статей в научных кругах. Иными сами эксперты не смогли предсказать будущую научную ценность работ. По умолчанию большинство публикаций на таких крупных мероприятиях отклоняется, поэтому в решениях об отказе комитеты чаще всего совпадали. Однако в отношении одобренных работ эксперты продемонстрировали полный раскол: из всех статей, принятых первым комитетом, второй согласился утвердить лишь половину. Это означало, что если бы организаторы просто сформировали другие составы жюри из тех же пулов специалистов, то половина принятых на конференцию трудов оказалась бы совершенно иной.

В 2021 году этот уникальный эксперимент решили повторить на новом массиве данных. Пользователь платформы Reddit под ником wai gua chiang самостоятельно собрал данные с портала Open Review и свел их в единую статистику, наглядно демонстрирующую распределение средних рейтингов и финальную судьбу поданных работ. При этом сторонние аналитики имеют доступ к полной информации лишь по принятым статьям, поскольку авторы отклоненных работ чаще всего предпочитают не публиковать свои рецензии в открытом доступе.

📉 Арифметика хаоса: разбор результатов NeurIPS 2021 3:24

В рамках эксперимента 2021 года схема работы была следующей: научные труды распределялись по двум независимым комитетам, каждый из которых принимал решение изолированно. Критерием для итоговой публикации становился так называемый максимум решений: если хотя бы один из двух комитетов голосовал за принятие, работа автоматически одобрялась для конференции.

Статистический анализ накопленных данных (всего было детально изучено около 298 принятых работ) выявил шокирующую закономерность:

Из 298 одобренных статей целых 199 работ были полностью отклонены альтернативным комитетом рецензентов.
Если перевести эти данные в плоскость эксперимента 2014 года для корректного сравнения, пропорции оказываются пугающе идентичными. В обоих случаях около двух третей статей принимаются исключительно за счет одобрения лишь одной из сторон.

По словам Кильчера, на фоне взрывного роста сообщества исследователей машинного обучения, увеличения числа публикаций и притока новых рецензентов, такая стабильность результатов удивляет. С одной стороны, можно интерпретировать это позитивно — ситуация не ухудшилась драматически за прошедшие годы, но с другой — Кильчер прямо называет происходящее полной несостоятельностью системы.

Еще более наглядно крах экспертной оценки виден на примере престижных категорий презентаций:

Из 6 статей, рекомендованных к устному докладу (Oral presentation) первым комитетом, второй комитет не утвердил в данном статусе ни одной работы.
Из 44 работ, предложенных для коротких презентаций (Spotlight presentation) одним комитетом, оба состава рецензентов сошлись во мнении всего лишь в 3 случаях.

Таким образом, случайная ротация людей, проверяющих работы, полностью перекроила бы половину программы NeurIPS. На этом основании Кильчер выражает искреннее недоумение, как в профессиональной среде до сих пор принято считать peer review неким священным и уважаемым институтом контроля качества.

🚽 «Три случайных парня в туалете» против социальных сетей 6:44

Вместе с тем ведущий признает, что крайние полюса системы работают относительно стабильно. Если статья откровенно гениальна, вероятность ее принятия обоими комитетами высока; если работа представляет собой откровенный мусор, ее гарантированно отсеют обе группы экспертов. Проблема заключается в том, что подавляющее большинство научных трудов находится в так называемой «серой зоне» посередине. Именно там, по мнению блогера, начинается зона абсолютной случайности: авторы просто бросают свои тексты в систему, как монетки в игровой автомат, ожидая случайного вердикта.

Эта ситуация заставляет Кильчера критически взглянуть на современные академические правила, включая жесткие требования к анонимности, запреты на публикации препринтов в архивах (arXiv) или упоминания исследований в соцсетях во время слепого рецензирования. Научное сообщество пытается оградить рецензентов от предвзятости, но, по мнению автора, бессмысленно пытаться защитить от предвзятости обычный генератор случайных чисел.

В качестве альтернативы ведущий предлагает довериться открытым социальным сетям и краудсорсингу. Он признает, что в медиа-платформах есть свои минусы: хайп, продвижение за счет бюджетов больших корпораций и влияние денег. Однако, с точки зрения Кильчера, механизмы, когда пользователи соцсетей сами вытаскивают интересные работы из глубин arXiv, работают эффективнее традиционного рецензирования. Существующий формат peer review Кильчер иронично описывает как процесс, когда «три случайных парня, сидя в туалете, лениво пролистывают вашу статью и пишут: „Недостаточно экспериментов, отклонить“». В качестве примера подобного халатного отношения он ссылается на собственный детальный разбор рецензий к видео о методе Learning Rate Grafting.

🎓 Лотерея ценой в карьеру и радикальное решение 8:45

Сложившееся положение дел диктует циничные правила игры. Кильчер утверждает, что в условиях рецензионной лотереи лучшая стратегия для исследователя — писать как можно больше статей среднего качества («на грани прохода») и массово заваливать ими конференции, уповая на теорию вероятностей.

Крупные ИТ-корпорации могут позволить себе такой подход ради пиара и найма сотрудников, однако для аспирантов (PhD-студентов) это превращается в личную трагедию. За 4–5 лет обучения аспиранту жизненно необходимо опубликовать около трех сильных работ. Учитывая, что в году есть всего 3–4 крупные авторитетные конференции с высоким импакт-фактором, случайные флуктуации экспертных оценок могут буквально разрушить карьеру талантливого молодого ученого. (Стоит оговориться, что защитники peer review часто указывают на отсутствие жизнеспособных альтернатив для фильтрации огромного потока низкокачественных публикаций, однако Кильчер убежден, что цена такой фильтрации слишком высока.)

Для преодоления кризиса Янник Кильчер предлагает радикальный комплекс мер, ориентированный на изменение всей академической парадигмы:

Профессорам с пожизненным контрактом (tenure) следует присуждать докторские степени аспирантам независимо от того, приняли ли их статьи на крупные конференции.
Университетам необходимо полностью отказаться от привязки импакт-факторов конференций к выдаче пожизненных профессорских ставок. Вместо этого стоит оценивать цитируемость, популярность работы и другие альтернативные метрики.
Грантовым агентствам рекомендуется перестать распределять бюджеты на основе формальной репутации и импакт-факторов конференций, где публикуются профессора.

Кильчер призывает академическое сообщество полностью игнорировать статус конференционных публикаций везде, где это возможно. По его мнению, устоявшиеся профессора обязаны использовать свою академическую независимость и разрешать студентам защищаться на основе трех качественных препринтов на arXiv, если качество работы устраивает научного руководителя лично.