Янник Кильхер: «Автоматизация рецензирования изменит науку навсегда»

Радикальный подход к научной публикации: автоматизация рецензирования 0:00

Текущая система экспертной оценки научных работ, особенно в области машинного обучения, переживает глубокий кризис. Исследователь ИИ Янник Кильхер считает, что существующий процесс «сломан» и требует замены на более эффективную, масштабируемую и объективную модель. В своем обзоре он анализирует радикальное предложение Сэмюэля Олбани, направленное на автоматизацию рецензирования с помощью метрики, основанной на количественном анализе текста самой рукописи.

Проблемы классического peer review 0:38

Традиционный механизм рецензирования (peer review), на котором строится современная наука, сталкивается с рядом критических трудностей:

Перегруженность: Огромное количество подаваемых заявок на конференции (порой тысячи) физически не успевают обрабатываться ограниченным числом экспертов.
Отсутствие масштабируемости: Система зависит от людей, количество которых не растет пропорционально числу научных работ.
Низкая скорость: Процесс рецензирования может занимать месяцы, в то время как темпы прогресса в ИИ требуют гораздо более оперативной публикации.
Отсутствие консистентности: Исследование NeurIPS 2014 года показало, что 57% работ, принятых одним комитетом, были отвергнуты другим, и наоборот.

По мнению Кильхера, сейчас успех публикации часто зависит от «подбрасывания монетки», что недопустимо для научного сообщества. Новая предлагаемая система State-of-the-Art Reviewing (SOTA-R) призвана решить эти проблемы, обеспечив скорость, масштабируемость и объективность.

Три столпа качества научной работы 4:16

Предлагаемая методика оценивает качество рукописи по трем основным осям, которые определяют ее ценность:

Эффективность (Efficacy): Насколько успешно предложенный метод достигает поставленной цели (например, создание классификатора).
Значимость (Significance): Насколько работа актуальна для данной научной области.
Новизна (Novelty): Является ли работа оригинальным вкладом в общемировые знания.

Автоматизация оценки через анализ текста 5:46

Авторы предложения разработали способ автоматизированной оценки этих критериев, который, по словам Кильхера, во многом опирается на доверие к самим авторам.

Эффективность: Оценивается через факт достижения нового состояния системы (State-of-the-Art, SOTA). Авторы предлагают просто считать количество упоминаний фразы «state of the art» (регистронезависимо) в тексте рукописи. Кильхер отмечает, что исследователи склонны повторять эту фразу многократно, если они действительно совершили прорыв, что делает этот показатель удобным для автоматического учета.
Значимость: Здесь авторы делают смелое допущение, приравнивая значимость к эффективности. Если работа эффективна (достигла SOTA), она автоматически считается значимой. В итоговой формуле этот показатель имеет двойной вес.
Новизна: Оценивается по количеству упоминаний слова «novel» в тексте, за исключением раздела с обзором литературы (related work).

Критика предложенного метода 9:43

Янник Кильхер выражает скепсис по поводу предложенного способа оценки новизны. Он считает логику подсчета слова «novel» недостаточно обоснованной.

Вместо этого Кильхер предлагает альтернативный подход для измерения новизны:

Анализ ссылок: Чем меньше у работы ссылок на другие (существующие) исследования, тем выше уровень новизны.
Графовые метрики: Он полагает, что использование меры центральности графа или прямое количество библиографических ссылок было бы гораздо более точным инструментом, чем частотный анализ слова «novel».

Итоговый вердикт и перспективы 10:46

Несмотря на спорные моменты, Кильхер положительно оценивает работу Олбани. Итоговая оценка формируется как среднее геометрическое между показателями эффективности (SOTA) и новизны, с приведением к шкале от 1 до 10 для удобства интерпретации.

Авторы даже представили код для интеграции этой метрики, например, в платформу arXiv. Кильхер считает, что такой подход способен радикально изменить индустрию научных публикаций, сделав ее более прозрачной и быстрой, хотя иронично замечает, что авторам метода в следующий раз стоит проявлять чуть больше тонкости в своих формулировках.