OpenAI: «ИИ пока не умнее PhD, но уже пишет код научной работы за час»

Wes Roth 48,3 тыс. 20 мин 4 мин 03.04.2025
Главное

Автономные агенты ИИ делают первые шаги в области высокой науки, пытаясь повторить успех исследователей-людей. Компания OpenAI представила новый бенчмарк Paper Bench, который проверяет способность языковых моделей воспроизводить передовые исследования в области машинного обучения, открывая дискуссию о близости момента «взрыва интеллекта».

🧪 Paper Bench: ИИ в роли научного сотрудника 0:00

OpenAI опубликовала Paper Bench — специализированный инструмент для оценки способностей ИИ-агентов в рамках своей системы «Preparedness Framework» . Эта система предназначена для отслеживания потенциальных рисков, которые возникают по мере совершенствования моделей. Риски классифицируются по шкале от «низкого» до «критического» в четырех ключевых категориях:

По словам ведущего Уэса Рота, именно автономия вызывает наибольший интерес и опасения, так как она вплотную подводит нас к концепции ИИ, способного к рекурсивному самосовершенствованию . В этом сценарии алгоритмы начинают улучшать сами себя быстрее и эффективнее, чем это делают ученые-люди, что может привести к экспоненциальному росту интеллекта.

🎓 Методология: экзамен для нейросетей 2:33

Для тестирования были отобраны 20 значимых научных работ с конференции ICML 2024 . Задача агентов состояла из нескольких этапов:

  1. Чтение и понимание: ИИ должен был усвоить суть статьи и её детали.
  2. Написание кода: создание всей программной базы (codebase) с нуля на основе текстового описания экспериментов.
  3. Воспроизведение: запуск экспериментов и получение результатов, соответствующих заявленным в оригинальной работе .

Для оценки OpenAI разработала систему из более чем 8000 индивидуальных задач, разбитых по иерархическому принципу («дерево требований») . Критерии оценки создавались совместно с авторами оригинальных статей, чтобы гарантировать точность проверки.

🥇 ИИ против докторов наук: первые результаты 10:25

В ходе испытаний OpenAI сравнила работу моделей с результатами людей — аспирантов или обладателей степени PhD в области машинного обучения .

Ключевой вывод исследования: на данный момент ИИ всё еще не превосходит человека уровня PhD в долгосрочных исследовательских задачах . Тем не менее, Род отмечает, что модели демонстрируют «нетривиальные способности», которые стремительно растут.

🕒 Фактор времени: спринт против марафона 18:00

Эксперимент выявил любопытную динамику. Модель o1 на старте существенно опережала людей: она моментально приступала к написанию кода и выдавала огромные объемы работы в первые часы .

Однако человеческий интеллект взял верх на длинной дистанции. После 24 часов работы ученые начали обходить ИИ, так как им требовалось время на «переваривание» научной статьи и глубокое осмысление методологии . ИИ-агенты, напротив, часто заходили в тупик при выполнении длительных и сложных задач, не обладая человеческой гибкостью в исправлении фундаментальных ошибок.

🔬 Практическая польза и «AI Scientist» 3:26

Уэс Рот упоминает проект «The AI Scientist» от компании Sakana AI, который пошел еще дальше. Если Paper Bench проверяет воспроизводимость, то AI Scientist создавал новые научные работы «под ключ» — от гипотезы до финальной верстки PDF .

Один из важных аспектов использования ИИ в науке — борьба с «кризисом воспроизводимости» и предвзятостью публикаций:

В качестве примера Рот приводит историю доктора Кайла Кобусара, чья диссертация по черным дырам требовала 10 месяцев написания кода. Модель o1 смогла воспроизвести аналогичную функциональность (на основе описания методов из статьи) менее чем за час .

🚀 Будущее: взрыв интеллекта или плато? 19:02

Ситуация развивается стремительно. Еще несколько лет назад языковые модели не могли написать простейший скрипт, а сегодня они успешно проходят процесс рецензирования (Peer Review) и соревнуются с кандидатами наук .

Рот оставляет открытым вопрос о том, столкнется ли прогресс ИИ с «плато» или же мы станем свидетелями взрывного роста, когда ИИ возьмет на себя развитие всей области машинного обучения. Это открывает как колоссальные возможности для научного прогресса, так и новые риски, связанные с автономностью систем, которые люди могут перестать понимать.

💬 Цитаты

«Модели на данный момент не превосходят человеческий базовый уровень. И базовый уровень здесь — это PhD в области машинного обучения.»

«ИИ-агенты показывают нетривиальные способности в воспроизведении научных работ по машинному обучению.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Paper Bench
Бенчмарк OpenAI для оценки способностей ИИ-агентов воспроизводить научные исследования.
Recursive self-improvement
Концепция, при которой ИИ использует свои способности для создания ещё более совершенной версии самого себя.
Scaffolding
Программная инфраструктура («обвязка»), позволяющая языковой модели использовать инструменты и выполнять цепочки действий.
CBRN
Аббревиатура для химических, биологических, радиологических и ядерных угроз.
📊 Цифры
🗓 Хронология
  1. Июль 2023 Публикация спорной статьи о сверхпроводнике LK-99, которую не смогли воспроизвести другие ученые.
  2. 2024 OpenAI выпускает Paper Bench для оценки автономных исследовательских способностей ИИ.
⚖️ Другая сторона
Искусственный интеллект OpenAI Paper Bench Wes Roth Claude 3.5 Sonnet Sakana AI