Янник Килчер об Enhanced POET: «Бесконечная изобретательность ИИ в создании новых миров»

Развитие систем искусственного интеллекта часто упирается в потолок сложности среды: агент быстро обучается решению конкретной задачи и перестает прогрессировать. Исследование «Enhanced POET», представленное коллективом авторов, включая ветеранов индустрии ИИ Джеффа Клуна и Кеннета О. Стэнли, предлагает выход через «бесконечную изобретательность» — алгоритм, который сам создает себе всё более сложные миры.

🚀 Суть Enhanced POET: открытое обучение без границ 1:36

Enhanced POET (Paired Open-Ended Trailblazer) представляет собой усовершенствованную версию оригинального алгоритма POET. По своей сути это популяционный метод обучения с подкреплением (Reinforcement Learning), работа которого строится на двух параллельных процессах :

Создание миров: система генерирует новые среды (уровни), варьируя их сложность.
Эволюция агентов: для каждой среды обучается свой агент, способный справиться со специфическими условиями.

Ключевая особенность Enhanced POET заключается в «переносе знаний» (transfers). Если агент, обученный в одной ветке эволюционного древа, внезапно оказывается более эффективным в среде другой ветки, происходит трансфер — этот агент заменяет прежнего «хозяина» локации . Это позволяет системе не просто оптимизировать решение, а находить неожиданные стратегии через параллельное исследование разных путей развития.

📏 Метод измерения новизны: отказ от параметров в пользу поведения 4:19

В первой версии POET новизна среды определялась по жестко заданным физическим параметрам. Генератор уровней оперировал пятимерным вектором, где числами задавались высота препятствий, глубина ям и шероховатость ландшафта . Дистанция между окружениями вычислялась как обычное евклидово расстояние. Янник Килчер отмечает, что такой подход слишком специфичен для конкретных задач и ограничивает систему .

В Enhanced POET авторы внедрили доменно-агностическую метрику новизны :

Тестирование агентов: когда создается новая среда, в ней тестируются все существующие в базе агенты .
Ранжирование: на основе результатов (score) формируется рейтинг агентов от лучшего к худшему.
Нормализация: рейтинг переводится в вектор (от +0.5 до -0.5) .
Сравнение порядков: среда считается действительно новой только в том случае, если в ней меняется порядок эффективности агентов .

Согласно утверждению авторов, если среда стала просто сложнее, но лучшие агенты остались лучшими, она не считается качественно новой. Новизна возникает тогда, когда для успеха в мире требуются принципиально иные навыки, что и фиксирует эта поведенческая метрика .

🧠 Эволюционирующие нейронные сети как генераторы миров 9:53

Отказ от фиксированных параметров среды позволил использовать гораздо более мощные инструменты генерации — CPPN (Compositional Pattern-Producing Networks) .

В Enhanced POET ландшафт создается нейронной сетью. Архитектура этой сети не фиксирована — она эволюционирует в тандеме с агентами . В сеть могут добавляться новые узлы (синусы, косинусы, математические операции), что делает ландшафты всё более причудливыми и сложными . Поскольку теперь сравнение сред идет через поведение агентов, алгоритму не важно, как именно устроена внутренняя архитектура генератора — он может сравнивать «яблоки с апельсинами», опираясь только на то, какой опыт они дают обучающимся моделям .

📉 Метрика ANNEX: как измерить прогресс бесконечности 11:57

Одной из самых сложных задач в открытых (open-ended) алгоритмах является оценка их эффективности, так как у них нет единой финальной цели. Авторы предложили метрику ANNEX score (Accumulated Number of Novel Environments Created and Solved) .

Она подсчитывает количество созданных уникальных сред, которые отвечают «минимальному критерию» (среда не слишком простая, но и не непреодолимо сложная) и которые агенты в итоге смогли успешно пройти (решить) .
Сравнение графиков показывает, что оригинальный POET быстро выходит на плато: из-за ограниченности генератора он перестает создавать нечто радикально новое .
Enhanced POET продолжает «изобретать» и обучаться на протяжении всего времени работы, не демонстрируя признаков насыщения .

💬 Критика: риск «инженерного тупика» 14:27

Несмотря на впечатляющие результаты, Янник Килчер высказывает определенный скепсис в отношении архитектуры генераторов уровней. По его мнению, хотя визуально ландшафты стали разнообразнее, они в некотором роде стали более «однообразно сложными» .

Килчер полагает, что исследователи рискуют «загнать себя в угол», чрезмерно полагаясь на эволюционирующие параметризованные генераторы. В такой системе успех слишком сильно зависит от способности генератора плавно наращивать сложность, не создавая «непроходимых зон» . Тем не менее, он признает идеи Enhanced POET важным шагом в создании систем, способных к неограниченному саморазвитию .