Google Research представила MLE Star — автономного ИИ-агента для машинного обучения, который показывает выдающиеся результаты в соревнованиях Kaggle. Ведущий канала Уэс Рот (Wes Roth) анализирует, как эта разработка приближает человечество к эпохе рекурсивного самосовершенствования алгоритмов и полной автоматизации ИИ-исследований.
🏆 Kaggle как поле битвы для искусственного интеллекта 0:00
Google Research опубликовала данные о своем новом проекте — MLE Star, который автор видео называет современным агентом для инженерии машинного обучения . Эта разработка появилась в контексте растущего интереса к «рекурсивному самосовершенствованию» ИИ, когда алгоритмы начинают улучшать сами себя эффективнее, чем это делают исследователи-люди .
Для тестирования MLE Star была выбрана платформа Kaggle — крупнейшее мировое сообщество специалистов по машинному обучению (ML), насчитывающее более 25 миллионов пользователей . На этом ресурсе датасаентисты делятся техниками, проводят стресс-тесты моделей и участвуют в соревнованиях с крупными призовыми фондами.
В качестве примера сложности задач на Kaggle Рот приводит «вызов Везувия» (Vesuvius Challenge) :
- Цель: прочитать обугленные свитки из библиотеки в Помпеях, погребенной при извержении вулкана почти 2000 лет назад.
- Проблема: свитки нельзя развернуть, не уничтожив их.
- Решение: использование 3D-сканирования и моделей машинного обучения для идентификации чернил на виртуальных слоях папируса .
- Результат: ИИ позволяет восстанавливать тексты, которые человеческий глаз не способен различить.
Автор подчеркивает, что человеческий интеллект в этой сфере является «дефицитным ресурсом» . Квалифицированных специалистов мало, их время ограничено, поэтому автоматизация подобных исследований — критически важная задача для отрасли.
📊 Результаты MLE Star: превосходство над OpenAI 4:23
Эффективность MLE Star была подтверждена на бенчмарке MLE-bench Light, созданном компанией OpenAI для оценки способностей ИИ-агентов к проведению исследований .
Основные показатели MLE Star в сравнении с конкурентами:
- Общий успех: агент завоевал медали в 63% соревнований .
- Золотые медали: 36,4% участий закончились получением «золота» .
- Валидность: 100% решений, представленных агентом, были технически корректными и приняты системой . Для сравнения, ни одна другая комбинация моделей и «каркасов» (scaffoldings) не достигла такого показателя.
- Сравнение с OpenAI: предыдущий лидер, связка модели o1-preview с архитектурой AID от OpenAI, достигал успеха (любых медалей) лишь в 36,6% случаев .
По мнению Рота, MLE Star фактически «разгромил» существующие решения, увеличив долю успешных выступлений более чем в два раза (с 26% до 63% в зависимости от условий сравнения) .
🛠 Проблема «блестящих объектов» и архитектурное решение Google 7:15
Уэс Рот обращает внимание на критику существующих ИИ-моделей (в частности, o1 от OpenAI) со стороны топовых программистов. Например, разработчик под ником Siho, победивший модель OpenAI в соревновании по кодингу в Японии, отмечал, что ИИ склонен к чрезмерному усложнению кода . Агенты часто принимают громоздкие изменения ради минимального прироста точности, что делает код «раздутым» .
Google в своей работе над MLE Star выделила две основные проблемы текущих агентов:
- Синдром блестящего объекта: агенты часто меняют всю структуру кода целиком в каждой итерации вместо того, чтобы сосредоточиться на глубоком исследовании конкретного компонента .
- Отсутствие итеративности: модели перескакивают на новые этапы, не исчерпав возможности оптимизации текущих (например, в инженерии признаков) .
MLE Star работает иначе. Это не просто языковая модель, а «каркас» (scaffolding) или архитектура, которую можно сравнить с автомобилем, где ИИ-модель выступает в роли водителя .
- Если в один и тот же «автомобиль» (каркас MLE Star) посадить более сильного «водителя» (обновленную модель вроде Gemini 2.5 Pro), общие результаты системы автоматически вырастут .
- Это и есть путь к рекурсивному улучшению: по мере выхода новых LLM, возможности MLE Star по созданию специализированных моделей будут расти по экспоненте .
🔄 Алгоритм работы: поиск, экстракция и рафинирование 11:21
В отличие от аналогов, MLE Star использует трехступенчатый процесс решения задач:
1. Поиск фундамента
Агент начинает с поиска в интернете моделей, которые уже показали эффективность в аналогичных задачах. Он не пытается изобрести велосипед, а собирает информацию, генерирует начальный Python-скрипт и получает первую оценку (baseline).
2. Экстракция целевого блока кода
Здесь применяется принцип Парето (правило 80/20). Агент анализирует, какие компоненты кода вносят наибольший вклад в результат. Вместо изменения всего проекта, он выбирает один конкретный блок, требующий оптимизации .
3. Итеративное рафинирование
Агент фокусируется исключительно на выбранном блоке, пока не достигнет максимально возможного улучшения. После этого новый результат становится входными данными для следующего цикла оптимизации .
🌐 Последствия для индустрии и бизнеса 15:17
Рот приводит примеры задач, которые сейчас решаются на Kaggle живыми людьми и за которые назначены огромные награды:
- Министерство внутренней безопасности США (DHS): досмотр пассажиров ($1,5 млн призовых, 11 000 участников) .
- OpenAI: поиск неизвестных археологических памятников в Южной Америке с помощью спутниковых снимков ($0,5 млн призовых) .
- Задачи по рисованию теней под объектами минимальным объемом кода ($100 000) .
Тот факт, что Gemini 2.5 Pro в связке с MLE Star получает золото в 36% случаев, означает, что ИИ уже достигает уровня «Грандмастера Kaggle» (системный промпт агента прямо указывает ему вести себя как Грандмастер) .
По прогнозу автора, в ближайшем будущем:
- Бизнесы смогут запускать собственные копии ИИ-агентов для оптимизации любых данных: от продаж в ресторанах до графиков авиаперевозок и качества воздуха .
- ИИ будет создавать «кастомные» модели для специфических задач быстрее и эффективнее человека .
- Мы вплотную подошли к автоматизации самой науки об ИИ, что может спровоцировать «взрыв интеллекта» .