Google MLE Star: ИИ-агент от Google выигрывает золотые медали Kaggle и автоматизирует машинное обучение

Wes Roth 91,5 тыс. 19 мин 4 мин 04.08.2025
Главное

Google Research представила MLE Star — автономного ИИ-агента для машинного обучения, который показывает выдающиеся результаты в соревнованиях Kaggle. Ведущий канала Уэс Рот (Wes Roth) анализирует, как эта разработка приближает человечество к эпохе рекурсивного самосовершенствования алгоритмов и полной автоматизации ИИ-исследований.

🏆 Kaggle как поле битвы для искусственного интеллекта 0:00

Google Research опубликовала данные о своем новом проекте — MLE Star, который автор видео называет современным агентом для инженерии машинного обучения . Эта разработка появилась в контексте растущего интереса к «рекурсивному самосовершенствованию» ИИ, когда алгоритмы начинают улучшать сами себя эффективнее, чем это делают исследователи-люди .

Для тестирования MLE Star была выбрана платформа Kaggle — крупнейшее мировое сообщество специалистов по машинному обучению (ML), насчитывающее более 25 миллионов пользователей . На этом ресурсе датасаентисты делятся техниками, проводят стресс-тесты моделей и участвуют в соревнованиях с крупными призовыми фондами.

В качестве примера сложности задач на Kaggle Рот приводит «вызов Везувия» (Vesuvius Challenge) :

Автор подчеркивает, что человеческий интеллект в этой сфере является «дефицитным ресурсом» . Квалифицированных специалистов мало, их время ограничено, поэтому автоматизация подобных исследований — критически важная задача для отрасли.

📊 Результаты MLE Star: превосходство над OpenAI 4:23

Эффективность MLE Star была подтверждена на бенчмарке MLE-bench Light, созданном компанией OpenAI для оценки способностей ИИ-агентов к проведению исследований .

Основные показатели MLE Star в сравнении с конкурентами:

По мнению Рота, MLE Star фактически «разгромил» существующие решения, увеличив долю успешных выступлений более чем в два раза (с 26% до 63% в зависимости от условий сравнения) .

🛠 Проблема «блестящих объектов» и архитектурное решение Google 7:15

Уэс Рот обращает внимание на критику существующих ИИ-моделей (в частности, o1 от OpenAI) со стороны топовых программистов. Например, разработчик под ником Siho, победивший модель OpenAI в соревновании по кодингу в Японии, отмечал, что ИИ склонен к чрезмерному усложнению кода . Агенты часто принимают громоздкие изменения ради минимального прироста точности, что делает код «раздутым» .

Google в своей работе над MLE Star выделила две основные проблемы текущих агентов:

  1. Синдром блестящего объекта: агенты часто меняют всю структуру кода целиком в каждой итерации вместо того, чтобы сосредоточиться на глубоком исследовании конкретного компонента .
  2. Отсутствие итеративности: модели перескакивают на новые этапы, не исчерпав возможности оптимизации текущих (например, в инженерии признаков) .

MLE Star работает иначе. Это не просто языковая модель, а «каркас» (scaffolding) или архитектура, которую можно сравнить с автомобилем, где ИИ-модель выступает в роли водителя .

🔄 Алгоритм работы: поиск, экстракция и рафинирование 11:21

В отличие от аналогов, MLE Star использует трехступенчатый процесс решения задач:

1. Поиск фундамента

Агент начинает с поиска в интернете моделей, которые уже показали эффективность в аналогичных задачах. Он не пытается изобрести велосипед, а собирает информацию, генерирует начальный Python-скрипт и получает первую оценку (baseline).

2. Экстракция целевого блока кода

Здесь применяется принцип Парето (правило 80/20). Агент анализирует, какие компоненты кода вносят наибольший вклад в результат. Вместо изменения всего проекта, он выбирает один конкретный блок, требующий оптимизации .

3. Итеративное рафинирование

Агент фокусируется исключительно на выбранном блоке, пока не достигнет максимально возможного улучшения. После этого новый результат становится входными данными для следующего цикла оптимизации .

🌐 Последствия для индустрии и бизнеса 15:17

Рот приводит примеры задач, которые сейчас решаются на Kaggle живыми людьми и за которые назначены огромные награды:

Тот факт, что Gemini 2.5 Pro в связке с MLE Star получает золото в 36% случаев, означает, что ИИ уже достигает уровня «Грандмастера Kaggle» (системный промпт агента прямо указывает ему вести себя как Грандмастер) .

По прогнозу автора, в ближайшем будущем:

  1. Бизнесы смогут запускать собственные копии ИИ-агентов для оптимизации любых данных: от продаж в ресторанах до графиков авиаперевозок и качества воздуха .
  2. ИИ будет создавать «кастомные» модели для специфических задач быстрее и эффективнее человека .
  3. Мы вплотную подошли к автоматизации самой науки об ИИ, что может спровоцировать «взрыв интеллекта» .
💬 Цитаты

«Человеческий мозг — это дефицитный ресурс, поэтому нам так важно автоматизировать исследования в области машинного обучения.»

«Вместо того чтобы менять все сразу, MLE Star фокусируется на одном компоненте, пока не выжмет из него максимум.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Kaggle
Онлайн-платформа для проведения соревнований по анализу данных и машинному обучению.
Scaffolding (Каркас)
Программная надстройка над языковой моделью, задающая правила и инструменты для решения сложных задач.
MLE-bench
Бенчмарк, созданный OpenAI для оценки способностей ИИ-агентов к автономному машинному обучению.
Рекурсивное самосовершенствование
Процесс, в котором ИИ-система использует свои способности для разработки еще более мощной версии самой себя.
📊 Цифры
🗓 Хронология
  1. Февраль 2025 Публикация результатов исследования Google MLE Star.
  2. 2024 Выпуск модели OpenAI o1-preview и бенчмарка MLE-bench.
⚖️ Другая сторона
Искусственный интеллект Google Research MLE Star Kaggle Gemini 2.5 Pro OpenAI