OpenAI представила MLE-bench: ИИ-агенты начали выигрывать медали в соревнованиях по машинному обучению

Wes Roth 58,6 тыс. 24 мин 4 мин 10.10.2024
Главное

Компания OpenAI сделала важный шаг на пути к созданию систем, способных к автономному самосовершенствованию, представив новый бенчмарк MLE-bench. Это исследование оценивает способности ИИ-агентов решать реальные задачи в области машинного обучения, что, по мнению автора канала Уэса Рота, может стать отправной точкой для «взрывного роста интеллекта».

🤖 На пути к самосовершенствующемуся ИИ 0:00

OpenAI опубликовала результаты тестирования MLE-bench — системы оценки ИИ-агентов в решении инженерных задач машинного обучения . Хотя на первый взгляд это может показаться рядовым событием, Уэс Рот считает, что этот бенчмарк затрагивает самый важный вопрос в современной индустрии: когда ИИ станет лучше людей в проведении собственных исследований?

В контексте этого вопроса автор ссылается на работу Леопольда Ашенбреннера «Situational Awareness». В ней Ашенбреннер утверждает следующее:

Уэс Рот отмечает, что в научном сообществе нет консенсуса: одни считают сценарий самосовершенствования научной фантастикой, другие — неизбежной и крайне опасной реальностью, способной положить конец привычной жизни . Сам автор придерживается оптимистичных взглядов, но признает, что перспектива экспоненциального роста интеллекта вызывает у него опасения, так как человечество не имеет исторического опыта взаимодействия с подобными процессами .

🏛️ Соревнования Kaggle как испытательный полигон 2:49

MLE-bench использует базу соревнований платформы Kaggle — крупнейшего сообщества специалистов по машинному обучению . Вместо того чтобы поручать агентам простые бытовые задачи, их отправляют решать сложнейшие инженерные проблемы, за которые люди получают реальные денежные призы .

В качестве примера значимости таких задач Рот приводит соревнование Vesuvius Challenge:

Уэс Рот подчеркивает, что OpenAI выпустила своих агентов (включая новую модель o1-preview) именно на такие площадки, чтобы проверить их способность к долгосрочному планированию и рассуждению .

📊 Методология и «строительные леса» для ИИ 5:27

Бенчмарк MLE-bench проверяет дискретные навыки, необходимые исследователю: обучение моделей, подготовка наборов данных и проведение экспериментов . Для проверки эффективности ИИ использовались два компонента: сама модель и так называемый «скаффолдинг» (scaffolding) — автоматизированный рабочий процесс, который направляет модель через этапы выполнения задачи .

В ходе исследования сравнивались три открытых фреймворка (скаффолдинга):

  1. AIDE — специализированный инструмент, созданный именно для соревнований Kaggle. Он показал наилучшие результаты .
  2. mlab — исследовательский агент общего назначения .
  3. Open Hands (ранее CodeAct Agent) — еще один агент общего назначения .

По данным OpenAI, комбинация модели o1-preview и фреймворка AIDE оказалась наиболее мощной: она достигла уровня бронзовой медали Kaggle в 16,9% всех протестированных соревнований .

🏆 Результаты: ИИ против элиты человеческого разума 8:29

Для понимания масштаба успеха автор приводит примеры людей, выигрывающих такие медали. Это не просто любители, а элита: аспиранты из Берлина, интерны SpaceX и робототехники из ETH Zurich (университета, создавшего знаменитых шагающих роботов) .

Ключевые выводы из отчета OpenAI:

Интересной деталью эксперимента стало предоставление агентам собственных вычислительных мощностей (GPU). Исследователи хотели проверить, адаптирует ли ИИ стратегию в зависимости от «железа» (например, будет ли он обучать модели меньшего размера, если доступны только CPU) . Однако на текущем этапе агенты вели себя одинаково независимо от доступности мощных чипов Nvidia .

⚠️ Риски «Великого ускорения» 11:30

В официальных документах OpenAI используется термин «Great Acceleration» (великое ускорение научного прогресса). Хотя это открывает перспективы в медицине и климатологии, компания и автор видео предупреждают о рисках .

Позиция участников и экспертов по вопросам безопасности:

В завершение Уэс Рот призывает зрителей задуматься: является ли успех ИИ в 17% сложных инженерных задач признаком скорого прорыва или это лишь «дымовая завеса», которая никогда не заменит настоящих экспертов-людей?

💬 Цитаты

«Автоматизация ИИ-исследований — это все, что нужно, чтобы запустить экстраординарные петли обратной связи.»

Уэс Рот (цитируя идеи Ашенбреннера) 01:32

«Мы понятия не имеем, как выглядит экспоненциально растущий искусственный интеллект.»

👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Скаффолдинг (Scaffolding)
Внешняя программная обвязка или фреймворк, организующий рабочий процесс ИИ-модели для выполнения сложных задач.
MLE-bench
Новый набор тестов от OpenAI для оценки ИИ-агентов в задачах машинного обучения.
o1-preview
Новая модель OpenAI, ориентированная на сложные рассуждения и решение задач по математике и программированию.
Рекурсивное самосовершенствование
Процесс, при котором ИИ использует свои способности для написания кода и улучшения собственной архитектуры.
📊 Цифры
🗓 Хронология
  1. 2024 OpenAI публикует результаты MLE-bench.
  2. 2024 Демис Хассабис и Джон Джампер получают Нобелевскую премию по химии за AlphaFold.
  3. 2027 Прогнозируемая дата достижения ИИ уровня лучших мировых исследователей (по Ашенбреннеру).
⚖️ Другая сторона
Искусственный интеллект OpenAI MLE-bench o1-preview Kaggle AIDE