# OpenAI представила MLE-bench: ИИ-агенты начали выигрывать медали в соревнованиях по машинному обучению

Источник: https://www.youtube.com/watch?v=7_dkSFg2EvY
Канал: Wes Roth
Опубликовано: 10.10.2024

---

Компания OpenAI сделала важный шаг на пути к созданию систем, способных к автономному самосовершенствованию, представив новый бенчмарк MLE-bench. Это исследование оценивает способности ИИ-агентов решать реальные задачи в области машинного обучения, что, по мнению автора канала Уэса Рота, может стать отправной точкой для «взрывного роста интеллекта».

## 🤖 На пути к самосовершенствующемуся ИИ
[[JUMP:0:00]]

OpenAI опубликовала результаты тестирования MLE-bench — системы оценки ИИ-агентов в решении инженерных задач машинного обучения [0:00]. Хотя на первый взгляд это может показаться рядовым событием, Уэс Рот считает, что этот бенчмарк затрагивает самый важный вопрос в современной индустрии: когда ИИ станет лучше людей в проведении собственных исследований? [0:14]

В контексте этого вопроса автор ссылается на работу Леопольда Ашенбреннера «Situational Awareness». В ней Ашенбреннер утверждает следующее:

*   Распространённое возражение о сложности автоматизации всего (робототехники, биологии) несостоятельно, так как критически важна лишь одна сфера — ИИ-исследования [0:40].
*   По прогнозу Ашенбреннера, экстраполяция текущих темпов развития приведет к тому, что ИИ превзойдет лучших исследователей-людей уже к концу 2027 года [1:06].
*   Автоматизация ИИ-исследований запустит петлю обратной связи: ИИ будет совершенствовать сам себя, что приведет к «интеллектуальному взрыву» (intelligence explosion) [1:44].

Уэс Рот отмечает, что в научном сообществе нет консенсуса: одни считают сценарий самосовершенствования научной фантастикой, другие — неизбежной и крайне опасной реальностью, способной положить конец привычной жизни [1:59]. Сам автор придерживается оптимистичных взглядов, но признает, что перспектива экспоненциального роста интеллекта вызывает у него опасения, так как человечество не имеет исторического опыта взаимодействия с подобными процессами [2:24].

## 🏛️ Соревнования Kaggle как испытательный полигон
[[JUMP:2:49]]

MLE-bench использует базу соревнований платформы Kaggle — крупнейшего сообщества специалистов по машинному обучению [3:15]. Вместо того чтобы поручать агентам простые бытовые задачи, их отправляют решать сложнейшие инженерные проблемы, за которые люди получают реальные денежные призы [3:28].

В качестве примера значимости таких задач Рот приводит соревнование Vesuvius Challenge:

*   Цель: использование машинного обучения для сканирования и чтения обугленных папирусных свитков из виллы в Помпеях [3:41].
*   Призы: фонд соревнований пополняется известными меценатами, включая фонд Илона Маска ($2 млн), основателей WordPress и Shopify [4:35].
*   Результат: проект стал возможен исключительно благодаря прогрессу в ИИ, позволяющему детектировать чернила на поврежденных поверхностях [4:22].

Уэс Рот подчеркивает, что OpenAI выпустила своих агентов (включая новую модель o1-preview) именно на такие площадки, чтобы проверить их способность к долгосрочному планированию и рассуждению [5:15].

## 📊 Методология и «строительные леса» для ИИ
[[JUMP:5:27]]

Бенчмарк MLE-bench проверяет дискретные навыки, необходимые исследователю: обучение моделей, подготовка наборов данных и проведение экспериментов [6:06]. Для проверки эффективности ИИ использовались два компонента: сама модель и так называемый «скаффолдинг» (scaffolding) — автоматизированный рабочий процесс, который направляет модель через этапы выполнения задачи [7:24].

В ходе исследования сравнивались три открытых фреймворка (скаффолдинга):

1.  **AIDE** — специализированный инструмент, созданный именно для соревнований Kaggle. Он показал наилучшие результаты [14:08].
2.  **mlab** — исследовательский агент общего назначения [14:08].
3.  **Open Hands** (ранее CodeAct Agent) — еще один агент общего назначения [14:08].

По данным OpenAI, комбинация модели o1-preview и фреймворка AIDE оказалась наиболее мощной: она достигла уровня бронзовой медали Kaggle в 16,9% всех протестированных соревнований [8:17].

## 🏆 Результаты: ИИ против элиты человеческого разума
[[JUMP:8:29]]

Для понимания масштаба успеха автор приводит примеры людей, выигрывающих такие медали. Это не просто любители, а элита: аспиранты из Берлина, интерны SpaceX и робототехники из ETH Zurich (университета, создавшего знаменитых шагающих роботов) [8:42]. 

Ключевые выводы из отчета OpenAI:

*   **o1-preview** продемонстрировала колоссальный скачок в способностях к рассуждению по сравнению с GPT-4o [18:08].
*   При использовании AIDE модель o1-preview смогла отправить валидное решение в 82% случаев (для сравнения, у других моделей этот показатель значительно ниже) [18:20].
*   Золотую медаль (вхождение в топ-10% участников) модель получила в 9,4% случаев [18:48].
*   Результаты значительно улучшаются при увеличении количества попыток. При восьми попытках (pass@8) показатель успеха удваивается по сравнению с одной попыткой [15:00].
*   Длительность работы над задачей также влияет на результат: при 24 часах модель набрала 8,7%, а при 100 часах — 11,8% [15:14].

Интересной деталью эксперимента стало предоставление агентам собственных вычислительных мощностей (GPU). Исследователи хотели проверить, адаптирует ли ИИ стратегию в зависимости от «железа» (например, будет ли он обучать модели меньшего размера, если доступны только CPU) [20:04]. Однако на текущем этапе агенты вели себя одинаково независимо от доступности мощных чипов Nvidia [20:18].

## ⚠️ Риски «Великого ускорения»
[[JUMP:11:30]]

В официальных документах OpenAI используется термин «Great Acceleration» (великое ускорение научного прогресса). Хотя это открывает перспективы в медицине и климатологии, компания и автор видео предупреждают о рисках [12:49].

Позиция участников и экспертов по вопросам безопасности:

*   Если ИИ начнет совершенствовать собственный код быстрее, чем люди успевают это осознавать, возникает риск создания моделей, способных на катастрофический вред [20:56].
*   Уэс Рот ссылается на визуализацию блога «Wait But Why», где интеллект представлен в виде лестницы [21:48]. Он задается вопросом: если между муравьем и человеком — огромная пропасть в когнитивных способностях, то что находится на следующей ступени, которую займет искусственный сверхинтеллект? [22:41]
*   Существует опасение, что «безопасность» и «выравнивание» (alignment) ИИ будут развиваться медленнее, чем его возможности по уничтожению привычного миропорядка [21:10].

В завершение Уэс Рот призывает зрителей задуматься: является ли успех ИИ в 17% сложных инженерных задач признаком скорого прорыва или это лишь «дымовая завеса», которая никогда не заменит настоящих экспертов-людей? [23:46]