В мире искусственного интеллекта наступает эпоха «рекурсивного самосовершенствования». Если раньше прогресс зависел исключительно от инженеров-людей, то сегодня агенты ИИ начинают самостоятельно переписывать собственный код, оптимизировать веса и проводить исследования, чтобы стать умнее. Ведущий канала Wes Roth анализирует свежую научную работу команды под руководством легендарного Юргена Шмидхубера, которая может стать ключом к предсказанию «взрыва интеллекта».
🧠 Генетика для нейросетей: наследие Шмидхубера и Гёделя 1:06
Юрген Шмидхубер — фигура в сообществе ИИ почти мифическая. Существует популярный мем о том, что Шмидхубер изобрел абсолютно всё в области глубокого обучения еще в 90-х, а современные лауреаты премии Тьюринга, такие как Джеффри Хинтон или Ян Лекун, лишь адаптировали его идеи . Еще в 2003 году Шмидхубер начал описывать концепцию «Гёдель-машины» (Gödel Machine) — системы, способной переписывать свой исходный код, если она может математически доказать, что изменения приведут к улучшению её работы .
Сегодня эта теория воплотилась в новом проекте под названием «Гёдель-машина Хаксли» (Huxley Gödel Machine, HGM). По словам автора видео, это важный шаг в переходе от теоретических рассуждений к рабочей технологии. Сам Сэм Альтман из OpenAI недавно отметил, что мы находимся в «личиночной стадии» рекурсивного самосовершенствования ИИ . Исследование Шмидхубера подтверждает это: ИИ-агент смог переписывать свой код сотни раз, пока не сравнялся по навыкам программирования с лучшими инженерами-людьми на бенчмарках .
🧬 Ошибки Дарвина: почему линейный прогресс обманчив 7:42
Основная проблема предыдущих попыток создать самосовершенствующийся ИИ заключалась в прямолинейности подхода. В начале 2024 года компания Sakana AI представила свою «Гёдель-машину Дарвина» (DGM), которая использовала эволюционный поиск для модификации агентов .
Механика DGM выглядела следующим образом:
- Агент создает несколько своих вариаций с изменениями в коде.
- Каждая вариация тестируется на бенчмарках (например, SWE-bench для решения задач программной инженерии) .
- Варианты с плохими результатами «отмирают».
- Лучшие варианты становятся основой для следующего поколения.
Однако команда Шмидхубера указала на критическую ошибку в этой логике, которую они назвали «несоответствием мета-продуктивности и производительности» (meta-productivity performance mismatch) .
Суть проблемы в том, что краткосрочный успех не гарантирует долгосрочного потенциала . Wes Roth приводит аналогию: ветка развития, которая на первом этапе дала прирост лишь в 1 пункт, может в долгосрочной перспективе (через 20 поколений) привести к агенту со взрывным ростом способностей. В то же время ветка, сразу давшая +10 пунктов, может быстро зайти в тупик и перестать развиваться . Линейный отбор «лучших здесь и сейчас» отсекает потенциально гениальные, но медленно стартующие решения.
📉 Метрика CMP: как предсказать успех потомков 15:57
Чтобы решить проблему «тупиковых ветвей», исследователи обратились к биологии, а именно к трудам Томаса Генри Хаксли, известного как «бульдог Дарвина» . Хаксли утверждал, что эволюция — это не лестница, а ветвящееся дерево (клада), где родство определяется общими признаками, а не только текущим уровнем развития .
На основе этого была разработана новая метрика — Clade Meta-Productivity (CMP) .
- Что это: Способ оценки потенциала самосовершенствования всей «родословной» агента, а не только конкретной особи.
- Как это работает: Алгоритм оценивает характеристики «предков» и предсказывает, насколько успешными могут стать их далекие «потомки» .
- Экономия ресурсов: Предыдущие методы требовали оценки после каждой модификации. HGM может запускать расширение ветки на несколько итераций вперед без промежуточных тестов, что радикально экономит вычислительные мощности и время .
🚀 Результаты: быстрее, дешевле, умнее 22:45
В ходе тестирования на бенчмарках SWE-bench Verified и Polyglot новая «Гёдель-машина Хаксли» показала впечатляющие результаты по сравнению с предшественником от Sakana AI:
- Производительность: HGM превзошла Darwin Gödel Machine во всех тестах .
- Затраты времени: Агенты обучались и улучшались значительно быстрее (меньше «wall clock time») .
- Экономичность: Система на базе GPT-4o Mini показала результаты, сопоставимые с моделями, которые в 5 раз дороже в эксплуатации (например, Claude 3.5 Sonnet или Claude 3.7) .
- Генерализация: Что особенно важно, ИИ не просто «зазубрил» тесты. Улучшения, найденные на одной модели, успешно переносились на другие, более крупные модели .
По мнению Wes Roth, это исследование доказывает, что мы нашли способ эффективно выбирать путь развития для самообучающегося ИИ . Если ИИ сможет предсказывать, какие изменения в его собственном коде приведут к максимальному результату через тысячи итераций, «взрыв интеллекта» из теоретической концепции станет неизбежной реальностью.