Google MLE Star: ИИ-агент от Google выигрывает золотые медали Kaggle и автоматизирует машинное обучение

Google Research представила MLE Star — автономного ИИ-агента для машинного обучения, который показывает выдающиеся результаты в соревнованиях Kaggle. Ведущий канала Уэс Рот (Wes Roth) анализирует, как эта разработка приближает человечество к эпохе рекурсивного самосовершенствования алгоритмов и полной автоматизации ИИ-исследований.

🏆 Kaggle как поле битвы для искусственного интеллекта 0:00

Google Research опубликовала данные о своем новом проекте — MLE Star, который автор видео называет современным агентом для инженерии машинного обучения . Эта разработка появилась в контексте растущего интереса к «рекурсивному самосовершенствованию» ИИ, когда алгоритмы начинают улучшать сами себя эффективнее, чем это делают исследователи-люди .

Для тестирования MLE Star была выбрана платформа Kaggle — крупнейшее мировое сообщество специалистов по машинному обучению (ML), насчитывающее более 25 миллионов пользователей . На этом ресурсе датасаентисты делятся техниками, проводят стресс-тесты моделей и участвуют в соревнованиях с крупными призовыми фондами.

В качестве примера сложности задач на Kaggle Рот приводит «вызов Везувия» (Vesuvius Challenge) :

Цель: прочитать обугленные свитки из библиотеки в Помпеях, погребенной при извержении вулкана почти 2000 лет назад.
Проблема: свитки нельзя развернуть, не уничтожив их.
Решение: использование 3D-сканирования и моделей машинного обучения для идентификации чернил на виртуальных слоях папируса .
Результат: ИИ позволяет восстанавливать тексты, которые человеческий глаз не способен различить.

Автор подчеркивает, что человеческий интеллект в этой сфере является «дефицитным ресурсом» . Квалифицированных специалистов мало, их время ограничено, поэтому автоматизация подобных исследований — критически важная задача для отрасли.

📊 Результаты MLE Star: превосходство над OpenAI 4:23

Эффективность MLE Star была подтверждена на бенчмарке MLE-bench Light, созданном компанией OpenAI для оценки способностей ИИ-агентов к проведению исследований .

Основные показатели MLE Star в сравнении с конкурентами:

Общий успех: агент завоевал медали в 63% соревнований .
Золотые медали: 36,4% участий закончились получением «золота» .
Валидность: 100% решений, представленных агентом, были технически корректными и приняты системой . Для сравнения, ни одна другая комбинация моделей и «каркасов» (scaffoldings) не достигла такого показателя.
Сравнение с OpenAI: предыдущий лидер, связка модели o1-preview с архитектурой AID от OpenAI, достигал успеха (любых медалей) лишь в 36,6% случаев .

По мнению Рота, MLE Star фактически «разгромил» существующие решения, увеличив долю успешных выступлений более чем в два раза (с 26% до 63% в зависимости от условий сравнения) .

🛠 Проблема «блестящих объектов» и архитектурное решение Google 7:15

Уэс Рот обращает внимание на критику существующих ИИ-моделей (в частности, o1 от OpenAI) со стороны топовых программистов. Например, разработчик под ником Siho, победивший модель OpenAI в соревновании по кодингу в Японии, отмечал, что ИИ склонен к чрезмерному усложнению кода . Агенты часто принимают громоздкие изменения ради минимального прироста точности, что делает код «раздутым» .

Google в своей работе над MLE Star выделила две основные проблемы текущих агентов:

Синдром блестящего объекта: агенты часто меняют всю структуру кода целиком в каждой итерации вместо того, чтобы сосредоточиться на глубоком исследовании конкретного компонента .
Отсутствие итеративности: модели перескакивают на новые этапы, не исчерпав возможности оптимизации текущих (например, в инженерии признаков) .

MLE Star работает иначе. Это не просто языковая модель, а «каркас» (scaffolding) или архитектура, которую можно сравнить с автомобилем, где ИИ-модель выступает в роли водителя .

Если в один и тот же «автомобиль» (каркас MLE Star) посадить более сильного «водителя» (обновленную модель вроде Gemini 2.5 Pro), общие результаты системы автоматически вырастут .
Это и есть путь к рекурсивному улучшению: по мере выхода новых LLM, возможности MLE Star по созданию специализированных моделей будут расти по экспоненте .

🔄 Алгоритм работы: поиск, экстракция и рафинирование 11:21

В отличие от аналогов, MLE Star использует трехступенчатый процесс решения задач:

1. Поиск фундамента

Агент начинает с поиска в интернете моделей, которые уже показали эффективность в аналогичных задачах. Он не пытается изобрести велосипед, а собирает информацию, генерирует начальный Python-скрипт и получает первую оценку (baseline).

2. Экстракция целевого блока кода

Здесь применяется принцип Парето (правило 80/20). Агент анализирует, какие компоненты кода вносят наибольший вклад в результат. Вместо изменения всего проекта, он выбирает один конкретный блок, требующий оптимизации .

3. Итеративное рафинирование

Агент фокусируется исключительно на выбранном блоке, пока не достигнет максимально возможного улучшения. После этого новый результат становится входными данными для следующего цикла оптимизации .

🌐 Последствия для индустрии и бизнеса 15:17

Рот приводит примеры задач, которые сейчас решаются на Kaggle живыми людьми и за которые назначены огромные награды:

Министерство внутренней безопасности США (DHS): досмотр пассажиров ($1,5 млн призовых, 11 000 участников) .
OpenAI: поиск неизвестных археологических памятников в Южной Америке с помощью спутниковых снимков ($0,5 млн призовых) .
Задачи по рисованию теней под объектами минимальным объемом кода ($100 000) .

Тот факт, что Gemini 2.5 Pro в связке с MLE Star получает золото в 36% случаев, означает, что ИИ уже достигает уровня «Грандмастера Kaggle» (системный промпт агента прямо указывает ему вести себя как Грандмастер) .

По прогнозу автора, в ближайшем будущем:

Бизнесы смогут запускать собственные копии ИИ-агентов для оптимизации любых данных: от продаж в ресторанах до графиков авиаперевозок и качества воздуха .
ИИ будет создавать «кастомные» модели для специфических задач быстрее и эффективнее человека .
Мы вплотную подошли к автоматизации самой науки об ИИ, что может спровоцировать «взрыв интеллекта» .