Янник Килчер: «Система рецензирования в машинном обучении полностью сломана»

Недавняя публикация отзывов на престижной ИИ-конференции NeurIPS спровоцировала очередную волну разочарования в академическом сообществе. Известный исследователь искусственного интеллекта и блогер Янник Килчер в своем видео подробно разбирает, почему классическая система рецензирования (peer review) в сфере машинного обучения окончательно сломалась. Автор анализирует скрытые мотивы участников процесса и предлагает радикальный план: полностью упразднить публикации через конференции и перевести науку на рельсы открытого непрерывного рецензирования.

📉 Крах системы NeurIPS и феномен «Рецензента №2» 0:00

Поводом для жесткой критики со стороны Янника Килчера стал недавний выпуск рецензий на поданные статьи для конференции NeurIPS. Практически всё сообщество осталось глубоко недовольно результатами. Главным виновником этого системного сбоя блогер называет собирательный образ, известный в академической среде как «Рецензент №2» (Reviewer #2).

По наблюдениям Килчера, этот персонаж оставляет крайне короткие отзывы, заявляя, что в работе недостаточно экспериментов, теория слишком слаба, допущения необоснованны или ему просто «не нравится ваше лицо». На основе таких поверхностных выводов выносится вердикт «слабо отклонить» (weak reject). Автор подчеркивает абсурдность ситуации: порой рецензенты называют статью фантастической, но всё равно рекомендуют её отклонить.

Корни проблемы Килчер видит в колоссальной перегрузке всей системы публикаций в сфере машинного обучения (ML). В эту область хлынул огромный поток новых людей, желающих публиковаться, что породило избыток заявок. В то же время квалифицированных экспертов для оценки такого объема работ катастрофически не хватает. В результате к рецензированию привлекают некомпетентных людей: студентов бакалавриата, специалистов из совершенно других областей или тех, у кого попросту нет времени на глубокий анализ.

Янник Килчер напоминает об известном эксперименте, проведенном несколько лет назад на той же конференции (тогда еще называвшейся NIPS). Эксперимент наглядно доказал, что принятие статьи на конференцию — это фактически бросок монеты, пусть и слегка смещенной в одну из сторон. Естественной реакцией авторов на такую «лотерею» становится отправка еще большего количества статей в надежде, что какая-то из них проскочит, что лишь усугубляет кризис системы.

Классический научный цикл — отправить рукопись, получить конструктивную критику, улучшить работу — сегодня, по мнению автора, полностью уничтожен. Исследователи больше не пытаются исправить текст по замечаниям, поскольку на следующей конференции состав рецензентов будет другим, и новые люди выдвинут совершенно иные, зачастую противоположные претензии. Процесс рецензирования превратился для ученых в случайную и досадную помеху, которую нужно как-то перетерпеть.

🎭 Игры со стимулами: в чём выгода авторов и «крупных имён» 2:59

Чтобы понять, почему неэффективная система продолжает существовать, Килчер предлагает детально разобрать скрытую мотивацию всех её участников.

По мнению Янника Килчера, у рядовых авторов статей сегодня есть несколько ключевых стимулов:

Выпускать как можно больше работ в кратчайшие сроки (для этого они активно используют платформу препринтов arXiv).
Избегать критики, особенно публичной и перманентной. На arXiv комментирование отсутствует, а отзывы на конференциях никто не читает после завершения отбора, поэтому авторы защищены от долгосрочного разбора их ошибок.
Минимизировать упоминание чужих заслуг и более ранних исследований.

Автор утверждает, что рецензенты должны выявлять случаи, когда исследователи не ссылаются на предшественников, но на практике никто этим не занимается. Поиск первоисточников — самый трудоемкий процесс при оценке статьи, и у рецензентов на него нет времени. Единственное, что удерживает авторов в этой системе — потребность в «знаке качества» (stamp of approval) от топовой конференции. Получив заветный штамп, они успокаиваются и больше никогда не возвращаются к доработке статьи.

Стратегия «крупных имён»

Отдельно Килчер рассматривает положение крупных исследовательских институтов, бигтех-компаний и профессоров с мировым именем. Существует расхожее мнение, что двойное слепое (анонимное) рецензирование выгодно молодым, неизвестным авторам, так как оно скрывает их статус. Однако Килчер относится к этому утверждению с глубоким скептицизмом.

По словам блогера, «крупные имена» всегда находят способ привязать свою личность к исследованию (например, через предварительные публикации в соцсетях и на arXiv). Обладая обширными связями, они легко могут узнать, кто является председателем секции (Area Chair), в какой трек попадет их работа и кто ее рецензирует. Исходя из этого, Килчер призывает не увеличивать анонимность, а наоборот, полностью от нее отказаться.

💸 Скрытая мотивация конференций и токсичные стимулы рецензентов 7:07

Сами организаторы конференций, как считает Килчер, стремятся к поддержанию высокой репутации, действуя по логике элитного ночного клуба. Им нужно завлечь как можно больше посетителей (заявок), а затем демонстративно отказать большинству из них, чтобы подтвердить свой статус «эксклюзивности». Конференции не заинтересованы в снижении потока слабых заявок, ведь если они начнут принимать более высокий процент от общего числа работ, они сразу же покажутся менее престижными.

Рецензенты: игра с нулевой ответственностью

Самым «сломанным» элементом системы Килчер называет мотивацию самих рецензентов. Единственный стимул согласиться на эту роль — возможность добавить строчку в свое резюме (CV) для подтверждения статуса. Но как только человек утверждается в роли рецензента, его личные стимулы требуют тратить на это как можно меньше усилий. Рецензирование анонимно, оно не приносит публичной репутации, а значит, качество работы никем не контролируется.

Более того, рецензент сталкивается с асимметричными рисками, из-за которых ему выгоднее отклонить любую хорошую работу, нежели одобрить её:

«Если в статье есть серьезная ошибка, а я её прогляжу и одобрю текст, это будет выглядеть ужасно для меня, для председателя секции и для всей конференции. Но если я отклоню действительно хорошую статью, я всегда могу сказать: „Ничего страшного, авторы просто отправят её на следующую конференцию“. Поэтому у любого рецензента изначально есть огромный перекос в сторону отказа».

К этому примешивается прямая конкуренция. Рецензенты часто оценивают работы, близкие к их собственным проектам. Чем больше чужих статей будет принято, тем меньше шансов останется у самого рецензента из-за неформальных ограничений на объем публикаций. Янник Килчер озвучивает циничную, но реальную, по его мнению, схему: рецензент может отвергнуть чужую перспективную идею, быстро реализовать её самостоятельно и отправить на следующую конференцию, уповая на случайность процесса.

Найти повод для отказа невероятно легко. Если статья теоретическая, можно потребовать больше экспериментов. Если она эмпирическая — заявить, что теория слишком слаба или допущения нереалистичны. Наконец, можно засыпать авторов десятками мелких вопросов. Поскольку объем ответа (rebuttal) жестко ограничен одной страницей, авторы физически не смогут ответить на всё, что позволит рецензенту с чистой совестью написать: «Авторы не смогли адекватно ответить на мои вопросы».

Килчер признает, что многие ученые пишут качественные отзывы исключительно из чувства долга, академического этоса и доброй воли. Однако «доброй воли» недостаточно, когда сама структура стимулов порочна, и хватает всего нескольких ленивых «Рецензентов №2», чтобы отравить всю индустрию. В качестве примера блогер приводит реальные случаи, когда коллеги хвастались перед ним тем, что написали рецензию из двух строк, вторая из которых гласила: «Вы не процитировали мою работу», и искренне над этим смеялись. В прошлом, в небольших научных сообществах, редакторы журналов лично знали рецензентов и их репутация была на кону. Сегодня, в эпоху гигантизма и анонимности, этот защитный механизм полностью утрачен.

🛠️ Почему существующие решения бесполезны 13:01

Многие исследователи видят выход в реформировании текущих институтов, однако Килчер считает эти попытки неэффективными.

Метод председателей секций (AC-based)

Попытки возложить контроль за качеством рецензий на председателей секций (Area Chairs) Килчер называет ироничными. Сейчас нерадивых рецензентов наказывают тем, что не приглашают их оценивать работы в следующий раз. Но в условиях жесткого дефицита кадров, когда конференции умоляют каждого автора стать рецензентом, такое «наказание» выглядит скорее как долгожданное освобождение от повинности. Кроме того, перекладывание контроля на AC лишь переносит проблему нехватки времени и высокой нагрузки на еще меньшую группу людей, что делает решения еще более субъективными и зашумленными.

Платное рецензирование и Open Review

Идея платить деньги за рецензии также не решает проблему, считает блогер. Финансовое вознаграждение не уберет стимул отвергать чужие работы, а лишь заставит рецензентов писать отказы в более элегантном стиле. К тому же, монетизация ограничит доступ к науке для менее обеспеченных сообществ.

Система Open Review (открытое рецензирование), по мнению Килчера, работает несколько лучше, но сохраняет анонимность рецензентов и привязку к бинарному штампу «принято/отклонено». Более того, она лишь сильнее перегружает председателей секций, заставляя их читать тонны открытых дискуссий.

Научная «Википедия» Томаса Дитриха

Известный ученый Томас Дитрих (Thomas G. Dietterich) предложил в Twitter концепцию единой совместной исследовательской вики-системы. В ней пул авторитетных старших редакторов должен сопоставлять новые статьи с уже имеющейся базой знаний сообщества. Килчер называет это прекрасной утопической мечтой, но сомневается в её практической реализации. Старшие редакторы окажутся точно так же погребены под лавиной современных ИИ-исследований. Дитрих предполагает, что позиция редактора станет престижной карьерной вехой, однако Килчер парирует: престиж невозможно объявить указом, это не фиатные деньги.

🚀 Радикальный план Килчера: отмена конференций и PageRank для науки 17:30

Вместо попыток починить сломанный механизм Янник Килчер призывает полностью изменить правила игры и направить эгоистичные стимулы людей на пользу науке. Его план состоит из нескольких революционных шагов.

Во-первых, необходимо полностью ликвидировать систему публикаций через конференции. Саму концепцию, при которой судьба сложнейшего исследования решается тремя случайными людьми за пару минут чтения, автор считает абсурдной. Вместо субъективных оценок мерилом ценности работы должно стать исключительно цитирование — показатель того, насколько статья реально важна для других ученых.

Чтобы нивелировать проблему накруток и самоцитирования, Килчер предлагает использовать алгоритмы ранжирования, аналогичные PageRank от Google:

«Поисковые системы еще 20 лет назад научились выдавать релевантные результаты по любому запросу, успешно отсекая спам. Почему мы не можем применить те же технологии к научным статьям, чтобы автоматически определять их важность и уместность?»

Да, оценка через цитирование требует времени, но и классический цикл конференций сегодня отстает от публикаций на arXiv минимум на полгода, в течение которых статья лежит мёртвым грузом. Peer review не должно быть разовым судейством. Оно должно начинаться в момент публикации препринта на условном arXiv и продолжаться непрерывно на протяжении всей «жизни» статьи. Если работа оказывается важной, она будет автоматически подвергаться всё большему и большему анализу со стороны сообщества.

Новая экосистема: arXiv с комментариями и HTML вместо PDF

Технически Килчер предлагает сохранить платформы вроде arXiv, но дополнить их развитой системой комментирования с поддержкой графиков, кода и перекрестных ссылок. Это превратит платформу в подобие Википедии, но с сохранением авторства.

Любой исследователь сможет опубликовать свой комментарий прямо под статьей, и этот комментарий по своей ценности будет приравнен к научной микро-публикации. Ученые смогут наглядно показывать результаты работы чужого кода на своих датасетах. Ошибки в статьях станут видны мгновенно благодаря закрепленным комментариям с доказательствами, а система голосования в стиле Stack Overflow позволит быстро поднимать наверх самые полезные разборы. При этом комментирование может оставаться анонимным, ведь оценивать будут суть текста, а не имя автора.

Дополнительно Килчер требует прекратить архаичную практику публикации исследований в формате PDF с фиксированными полями и границами страниц. Научные труды должны выходить в виде адаптивных HTML-страниц (веб-сайтов), которые гораздо удобнее читать с любых современных устройств.

Если крупные ИИ-корпорации (например, Google) захотят уйти с общих платформ и хостить статьи на своих сайтах, чтобы избежать неудобных комментариев, проблему можно решить с помощью простого браузерного плагина. Он будет автоматически сопоставлять заголовки статей в сети с единой независимой базой отзывов и подтягивать обсуждения на любую страницу.

Какими должны быть настоящие конференции

В этой новой схеме конференции из фабрик по штамповке публикаций должны превратиться в то, чем они задумывались изначально — в места для живого общения, споров и нетворкинга.

Вместо скучного зачитывания докладов по статьям полугодичной давности Килчер предлагает формировать программу конференций исключительно из:

приглашенных ключевых докладов (keynotes) от признанных экспертов;
панельных дискуссий по самым острым текущим проблемам;
воркшопов для обсуждения незавершенных, но прорывных исследований;
масштабных постерных сессий, места на которых в случае дефицита пространства должны распределяться через прозрачную лотерею, без какого-либо предварительного отбора рецензентами.

В завершение своего манифеста Янник Килчер обращается к профессорам по всему миру. Сегодня порочная система во многом удерживается из-за того, что аспиранты (PhD) обязаны иметь определенное количество принятых на конференции публикаций для защиты диплома. Килчер призывает профессуру проявить академическую смелость и начать присуждать ученые степени, абсолютно не обращая внимания на число официальных конференционных штампов, оценивая лишь реальную крутизну, новизну и актуальность работы студента.