# Google MLE Star: ИИ-агент от Google выигрывает золотые медали Kaggle и автоматизирует машинное обучение

Источник: https://www.youtube.com/watch?v=_MJAIjSGSUs
Канал: Wes Roth
Опубликовано: 04.08.2025

---

Google Research представила MLE Star — автономного ИИ-агента для машинного обучения, который показывает выдающиеся результаты в соревнованиях Kaggle. Ведущий канала Уэс Рот (Wes Roth) анализирует, как эта разработка приближает человечество к эпохе рекурсивного самосовершенствования алгоритмов и полной автоматизации ИИ-исследований.

## 🏆 Kaggle как поле битвы для искусственного интеллекта
[[JUMP:0:00]]

Google Research опубликовала данные о своем новом проекте — MLE Star, который автор видео называет современным агентом для инженерии машинного обучения [0:00]. Эта разработка появилась в контексте растущего интереса к «рекурсивному самосовершенствованию» ИИ, когда алгоритмы начинают улучшать сами себя эффективнее, чем это делают исследователи-люди [0:12].

Для тестирования MLE Star была выбрана платформа Kaggle — крупнейшее мировое сообщество специалистов по машинному обучению (ML), насчитывающее более 25 миллионов пользователей [0:38]. На этом ресурсе датасаентисты делятся техниками, проводят стресс-тесты моделей и участвуют в соревнованиях с крупными призовыми фондами.

В качестве примера сложности задач на Kaggle Рот приводит «вызов Везувия» (Vesuvius Challenge) [1:20]:

*   Цель: прочитать обугленные свитки из библиотеки в Помпеях, погребенной при извержении вулкана почти 2000 лет назад.
*   Проблема: свитки нельзя развернуть, не уничтожив их.
*   Решение: использование 3D-сканирования и моделей машинного обучения для идентификации чернил на виртуальных слоях папируса [2:11].
*   Результат: ИИ позволяет восстанавливать тексты, которые человеческий глаз не способен различить.

Автор подчеркивает, что человеческий интеллект в этой сфере является «дефицитным ресурсом» [4:10]. Квалифицированных специалистов мало, их время ограничено, поэтому автоматизация подобных исследований — критически важная задача для отрасли.

## 📊 Результаты MLE Star: превосходство над OpenAI
[[JUMP:04:23]]

Эффективность MLE Star была подтверждена на бенчмарке MLE-bench Light, созданном компанией OpenAI для оценки способностей ИИ-агентов к проведению исследований [4:36].

Основные показатели MLE Star в сравнении с конкурентами:

*   **Общий успех:** агент завоевал медали в 63% соревнований [4:23].
*   **Золотые медали:** 36,4% участий закончились получением «золота» [4:36].
*   **Валидность:** 100% решений, представленных агентом, были технически корректными и приняты системой [14:49]. Для сравнения, ни одна другая комбинация моделей и «каркасов» (scaffoldings) не достигла такого показателя.
*   **Сравнение с OpenAI:** предыдущий лидер, связка модели o1-preview с архитектурой AID от OpenAI, достигал успеха (любых медалей) лишь в 36,6% случаев [14:09].

По мнению Рота, MLE Star фактически «разгромил» существующие решения, увеличив долю успешных выступлений более чем в два раза (с 26% до 63% в зависимости от условий сравнения) [6:46].

## 🛠 Проблема «блестящих объектов» и архитектурное решение Google
[[JUMP:07:15]]

Уэс Рот обращает внимание на критику существующих ИИ-моделей (в частности, o1 от OpenAI) со стороны топовых программистов. Например, разработчик под ником Siho, победивший модель OpenAI в соревновании по кодингу в Японии, отмечал, что ИИ склонен к чрезмерному усложнению кода [7:42]. Агенты часто принимают громоздкие изменения ради минимального прироста точности, что делает код «раздутым» [7:56].

Google в своей работе над MLE Star выделила две основные проблемы текущих агентов:

1.  **Синдром блестящего объекта:** агенты часто меняют всю структуру кода целиком в каждой итерации вместо того, чтобы сосредоточиться на глубоком исследовании конкретного компонента [8:47].
2.  **Отсутствие итеративности:** модели перескакивают на новые этапы, не исчерпав возможности оптимизации текущих (например, в инженерии признаков) [8:59].

MLE Star работает иначе. Это не просто языковая модель, а «каркас» (scaffolding) или архитектура, которую можно сравнить с автомобилем, где ИИ-модель выступает в роли водителя [10:43].

*   Если в один и тот же «автомобиль» (каркас MLE Star) посадить более сильного «водителя» (обновленную модель вроде Gemini 2.5 Pro), общие результаты системы автоматически вырастут [10:55].
*   Это и есть путь к рекурсивному улучшению: по мере выхода новых LLM, возможности MLE Star по созданию специализированных моделей будут расти по экспоненте [11:08].

## 🔄 Алгоритм работы: поиск, экстракция и рафинирование
[[JUMP:11:21]]

В отличие от аналогов, MLE Star использует трехступенчатый процесс решения задач:

### 1. Поиск фундамента [11:36]
Агент начинает с поиска в интернете моделей, которые уже показали эффективность в аналогичных задачах. Он не пытается изобрести велосипед, а собирает информацию, генерирует начальный Python-скрипт и получает первую оценку (baseline).

### 2. Экстракция целевого блока кода [12:13]
Здесь применяется принцип Парето (правило 80/20). Агент анализирует, какие компоненты кода вносят наибольший вклад в результат. Вместо изменения всего проекта, он выбирает один конкретный блок, требующий оптимизации [12:40].

### 3. Итеративное рафинирование [12:53]
Агент фокусируется исключительно на выбранном блоке, пока не достигнет максимально возможного улучшения. После этого новый результат становится входными данными для следующего цикла оптимизации [13:17].

## 🌐 Последствия для индустрии и бизнеса
[[JUMP:15:17]]

Рот приводит примеры задач, которые сейчас решаются на Kaggle живыми людьми и за которые назначены огромные награды:

*   Министерство внутренней безопасности США (DHS): досмотр пассажиров ($1,5 млн призовых, 11 000 участников) [16:09].
*   OpenAI: поиск неизвестных археологических памятников в Южной Америке с помощью спутниковых снимков ($0,5 млн призовых) [15:29].
*   Задачи по рисованию теней под объектами минимальным объемом кода ($100 000) [15:56].

Тот факт, что Gemini 2.5 Pro в связке с MLE Star получает золото в 36% случаев, означает, что ИИ уже достигает уровня «Грандмастера Kaggle» (системный промпт агента прямо указывает ему вести себя как Грандмастер) [17:57].

По прогнозу автора, в ближайшем будущем:

1.  Бизнесы смогут запускать собственные копии ИИ-агентов для оптимизации любых данных: от продаж в ресторанах до графиков авиаперевозок и качества воздуха [18:47].
2.  ИИ будет создавать «кастомные» модели для специфических задач быстрее и эффективнее человека [19:14].
3.  Мы вплотную подошли к автоматизации самой науки об ИИ, что может спровоцировать «взрыв интеллекта» [19:27].