OpenAI представила MLE-bench: ИИ-агенты начали выигрывать медали в соревнованиях по машинному обучению

Компания OpenAI сделала важный шаг на пути к созданию систем, способных к автономному самосовершенствованию, представив новый бенчмарк MLE-bench. Это исследование оценивает способности ИИ-агентов решать реальные задачи в области машинного обучения, что, по мнению автора канала Уэса Рота, может стать отправной точкой для «взрывного роста интеллекта».

🤖 На пути к самосовершенствующемуся ИИ 0:00

OpenAI опубликовала результаты тестирования MLE-bench — системы оценки ИИ-агентов в решении инженерных задач машинного обучения . Хотя на первый взгляд это может показаться рядовым событием, Уэс Рот считает, что этот бенчмарк затрагивает самый важный вопрос в современной индустрии: когда ИИ станет лучше людей в проведении собственных исследований?

В контексте этого вопроса автор ссылается на работу Леопольда Ашенбреннера «Situational Awareness». В ней Ашенбреннер утверждает следующее:

Распространённое возражение о сложности автоматизации всего (робототехники, биологии) несостоятельно, так как критически важна лишь одна сфера — ИИ-исследования .
По прогнозу Ашенбреннера, экстраполяция текущих темпов развития приведет к тому, что ИИ превзойдет лучших исследователей-людей уже к концу 2027 года .
Автоматизация ИИ-исследований запустит петлю обратной связи: ИИ будет совершенствовать сам себя, что приведет к «интеллектуальному взрыву» (intelligence explosion) .

Уэс Рот отмечает, что в научном сообществе нет консенсуса: одни считают сценарий самосовершенствования научной фантастикой, другие — неизбежной и крайне опасной реальностью, способной положить конец привычной жизни . Сам автор придерживается оптимистичных взглядов, но признает, что перспектива экспоненциального роста интеллекта вызывает у него опасения, так как человечество не имеет исторического опыта взаимодействия с подобными процессами .

🏛️ Соревнования Kaggle как испытательный полигон 2:49

MLE-bench использует базу соревнований платформы Kaggle — крупнейшего сообщества специалистов по машинному обучению . Вместо того чтобы поручать агентам простые бытовые задачи, их отправляют решать сложнейшие инженерные проблемы, за которые люди получают реальные денежные призы .

В качестве примера значимости таких задач Рот приводит соревнование Vesuvius Challenge:

Цель: использование машинного обучения для сканирования и чтения обугленных папирусных свитков из виллы в Помпеях .
Призы: фонд соревнований пополняется известными меценатами, включая фонд Илона Маска ($2 млн), основателей WordPress и Shopify .
Результат: проект стал возможен исключительно благодаря прогрессу в ИИ, позволяющему детектировать чернила на поврежденных поверхностях .

Уэс Рот подчеркивает, что OpenAI выпустила своих агентов (включая новую модель o1-preview) именно на такие площадки, чтобы проверить их способность к долгосрочному планированию и рассуждению .

📊 Методология и «строительные леса» для ИИ 5:27

Бенчмарк MLE-bench проверяет дискретные навыки, необходимые исследователю: обучение моделей, подготовка наборов данных и проведение экспериментов . Для проверки эффективности ИИ использовались два компонента: сама модель и так называемый «скаффолдинг» (scaffolding) — автоматизированный рабочий процесс, который направляет модель через этапы выполнения задачи .

В ходе исследования сравнивались три открытых фреймворка (скаффолдинга):

AIDE — специализированный инструмент, созданный именно для соревнований Kaggle. Он показал наилучшие результаты .
mlab — исследовательский агент общего назначения .
Open Hands (ранее CodeAct Agent) — еще один агент общего назначения .

По данным OpenAI, комбинация модели o1-preview и фреймворка AIDE оказалась наиболее мощной: она достигла уровня бронзовой медали Kaggle в 16,9% всех протестированных соревнований .

🏆 Результаты: ИИ против элиты человеческого разума 8:29

Для понимания масштаба успеха автор приводит примеры людей, выигрывающих такие медали. Это не просто любители, а элита: аспиранты из Берлина, интерны SpaceX и робототехники из ETH Zurich (университета, создавшего знаменитых шагающих роботов) .

Ключевые выводы из отчета OpenAI:

o1-preview продемонстрировала колоссальный скачок в способностях к рассуждению по сравнению с GPT-4o .
При использовании AIDE модель o1-preview смогла отправить валидное решение в 82% случаев (для сравнения, у других моделей этот показатель значительно ниже) .
Золотую медаль (вхождение в топ-10% участников) модель получила в 9,4% случаев .
Результаты значительно улучшаются при увеличении количества попыток. При восьми попытках (pass@8) показатель успеха удваивается по сравнению с одной попыткой .
Длительность работы над задачей также влияет на результат: при 24 часах модель набрала 8,7%, а при 100 часах — 11,8% .

Интересной деталью эксперимента стало предоставление агентам собственных вычислительных мощностей (GPU). Исследователи хотели проверить, адаптирует ли ИИ стратегию в зависимости от «железа» (например, будет ли он обучать модели меньшего размера, если доступны только CPU) . Однако на текущем этапе агенты вели себя одинаково независимо от доступности мощных чипов Nvidia .

⚠️ Риски «Великого ускорения» 11:30

В официальных документах OpenAI используется термин «Great Acceleration» (великое ускорение научного прогресса). Хотя это открывает перспективы в медицине и климатологии, компания и автор видео предупреждают о рисках .

Позиция участников и экспертов по вопросам безопасности:

Если ИИ начнет совершенствовать собственный код быстрее, чем люди успевают это осознавать, возникает риск создания моделей, способных на катастрофический вред .
Уэс Рот ссылается на визуализацию блога «Wait But Why», где интеллект представлен в виде лестницы . Он задается вопросом: если между муравьем и человеком — огромная пропасть в когнитивных способностях, то что находится на следующей ступени, которую займет искусственный сверхинтеллект?
Существует опасение, что «безопасность» и «выравнивание» (alignment) ИИ будут развиваться медленнее, чем его возможности по уничтожению привычного миропорядка .

В завершение Уэс Рот призывает зрителей задуматься: является ли успех ИИ в 17% сложных инженерных задач признаком скорого прорыва или это лишь «дымовая завеса», которая никогда не заменит настоящих экспертов-людей?