OpenAI: «ИИ пока не умнее PhD, но уже пишет код научной работы за час»

Автономные агенты ИИ делают первые шаги в области высокой науки, пытаясь повторить успех исследователей-людей. Компания OpenAI представила новый бенчмарк Paper Bench, который проверяет способность языковых моделей воспроизводить передовые исследования в области машинного обучения, открывая дискуссию о близости момента «взрыва интеллекта».

🧪 Paper Bench: ИИ в роли научного сотрудника 0:00

OpenAI опубликовала Paper Bench — специализированный инструмент для оценки способностей ИИ-агентов в рамках своей системы «Preparedness Framework» . Эта система предназначена для отслеживания потенциальных рисков, которые возникают по мере совершенствования моделей. Риски классифицируются по шкале от «низкого» до «критического» в четырех ключевых категориях:

Кибербезопасность: способность к совершению или отражению атак.
CBRN: угрозы, связанные с химическим, биологическим, радиологическим и ядерным оружием.
Убеждение: возможность манипулировать мнением людей.
Автономия модели: способность ИИ самостоятельно выполнять сложные долгосрочные задачи .

По словам ведущего Уэса Рота, именно автономия вызывает наибольший интерес и опасения, так как она вплотную подводит нас к концепции ИИ, способного к рекурсивному самосовершенствованию . В этом сценарии алгоритмы начинают улучшать сами себя быстрее и эффективнее, чем это делают ученые-люди, что может привести к экспоненциальному росту интеллекта.

🎓 Методология: экзамен для нейросетей 2:33

Для тестирования были отобраны 20 значимых научных работ с конференции ICML 2024 . Задача агентов состояла из нескольких этапов:

Чтение и понимание: ИИ должен был усвоить суть статьи и её детали.
Написание кода: создание всей программной базы (codebase) с нуля на основе текстового описания экспериментов.
Воспроизведение: запуск экспериментов и получение результатов, соответствующих заявленным в оригинальной работе .

Для оценки OpenAI разработала систему из более чем 8000 индивидуальных задач, разбитых по иерархическому принципу («дерево требований») . Критерии оценки создавались совместно с авторами оригинальных статей, чтобы гарантировать точность проверки.

🥇 ИИ против докторов наук: первые результаты 10:25

В ходе испытаний OpenAI сравнила работу моделей с результатами людей — аспирантов или обладателей степени PhD в области машинного обучения .

Лидер среди моделей: Лучшей оказалась Claude 3.5 Sonnet со специальной программной обвязкой (scaffolding), набравшая 21% в общем зачете .
Противостояние с PhD: На выборке из трех статей люди набрали 41,4%, в то время как модель o1 показала результат 26,6% (при более строгой оценке) .
Судейство: Интересно, что ИИ-судьи (на базе o3-mini) показали высокую корреляцию с оценками людей (0,83), что позволяет использовать их как надежную замену человеческому аудиту .

Ключевой вывод исследования: на данный момент ИИ всё еще не превосходит человека уровня PhD в долгосрочных исследовательских задачах . Тем не менее, Род отмечает, что модели демонстрируют «нетривиальные способности», которые стремительно растут.

🕒 Фактор времени: спринт против марафона 18:00

Эксперимент выявил любопытную динамику. Модель o1 на старте существенно опережала людей: она моментально приступала к написанию кода и выдавала огромные объемы работы в первые часы .

Однако человеческий интеллект взял верх на длинной дистанции. После 24 часов работы ученые начали обходить ИИ, так как им требовалось время на «переваривание» научной статьи и глубокое осмысление методологии . ИИ-агенты, напротив, часто заходили в тупик при выполнении длительных и сложных задач, не обладая человеческой гибкостью в исправлении фундаментальных ошибок.

🔬 Практическая польза и «AI Scientist» 3:26

Уэс Рот упоминает проект «The AI Scientist» от компании Sakana AI, который пошел еще дальше. Если Paper Bench проверяет воспроизводимость, то AI Scientist создавал новые научные работы «под ключ» — от гипотезы до финальной верстки PDF .

Один из важных аспектов использования ИИ в науке — борьба с «кризисом воспроизводимости» и предвзятостью публикаций:

Люди склонны публиковать только позитивные результаты (например, «лекарство работает»).
«Скучные» или отрицательные результаты часто остаются «в столе» .
ИИ может неутомимо проверять любые гипотезы и публиковать «неудачные» эксперименты, что крайне важно для научного сообщества, так как это сужает круг поиска для других исследователей .

В качестве примера Рот приводит историю доктора Кайла Кобусара, чья диссертация по черным дырам требовала 10 месяцев написания кода. Модель o1 смогла воспроизвести аналогичную функциональность (на основе описания методов из статьи) менее чем за час .

🚀 Будущее: взрыв интеллекта или плато? 19:02

Ситуация развивается стремительно. Еще несколько лет назад языковые модели не могли написать простейший скрипт, а сегодня они успешно проходят процесс рецензирования (Peer Review) и соревнуются с кандидатами наук .

Рот оставляет открытым вопрос о том, столкнется ли прогресс ИИ с «плато» или же мы станем свидетелями взрывного роста, когда ИИ возьмет на себя развитие всей области машинного обучения. Это открывает как колоссальные возможности для научного прогресса, так и новые риски, связанные с автономностью систем, которые люди могут перестать понимать.