# Янник Килчер об Enhanced POET: «Бесконечная изобретательность ИИ в создании новых миров»

Источник: https://www.youtube.com/watch?v=gbG1X8Xq-T8
Канал: Yannic Kilcher
Опубликовано: 10.04.2020

---

Развитие систем искусственного интеллекта часто упирается в потолок сложности среды: агент быстро обучается решению конкретной задачи и перестает прогрессировать. Исследование «Enhanced POET», представленное коллективом авторов, включая ветеранов индустрии ИИ Джеффа Клуна и Кеннета О. Стэнли, предлагает выход через «бесконечную изобретательность» — алгоритм, который сам создает себе всё более сложные миры.

## 🚀 Суть Enhanced POET: открытое обучение без границ
[[JUMP:01:36]]

Enhanced POET (Paired Open-Ended Trailblazer) представляет собой усовершенствованную версию оригинального алгоритма POET. По своей сути это популяционный метод обучения с подкреплением (Reinforcement Learning), работа которого строится на двух параллельных процессах [01:23]:

1.  **Создание миров:** система генерирует новые среды (уровни), варьируя их сложность.
2.  **Эволюция агентов:** для каждой среды обучается свой агент, способный справиться со специфическими условиями.

Ключевая особенность Enhanced POET заключается в «переносе знаний» (transfers). Если агент, обученный в одной ветке эволюционного древа, внезапно оказывается более эффективным в среде другой ветки, происходит трансфер — этот агент заменяет прежнего «хозяина» локации [03:52]. Это позволяет системе не просто оптимизировать решение, а находить неожиданные стратегии через параллельное исследование разных путей развития.

## 📏 Метод измерения новизны: отказ от параметров в пользу поведения
[[JUMP:04:19]]

В первой версии POET новизна среды определялась по жестко заданным физическим параметрам. Генератор уровней оперировал пятимерным вектором, где числами задавались высота препятствий, глубина ям и шероховатость ландшафта [05:10]. Дистанция между окружениями вычислялась как обычное евклидово расстояние. Янник Килчер отмечает, что такой подход слишком специфичен для конкретных задач и ограничивает систему [06:03].

В Enhanced POET авторы внедрили **доменно-агностическую метрику новизны** [09:27]:

*   **Тестирование агентов:** когда создается новая среда, в ней тестируются все существующие в базе агенты [06:42].
*   **Ранжирование:** на основе результатов (score) формируется рейтинг агентов от лучшего к худшему.
*   **Нормализация:** рейтинг переводится в вектор (от +0.5 до -0.5) [07:08].
*   **Сравнение порядков:** среда считается действительно новой только в том случае, если в ней меняется *порядок* эффективности агентов [07:55].

Согласно утверждению авторов, если среда стала просто сложнее, но лучшие агенты остались лучшими, она не считается качественно новой. Новизна возникает тогда, когда для успеха в мире требуются принципиально иные навыки, что и фиксирует эта поведенческая метрика [08:44].

## 🧠 Эволюционирующие нейронные сети как генераторы миров
[[JUMP:09:53]]

Отказ от фиксированных параметров среды позволил использовать гораздо более мощные инструменты генерации — CPPN (Compositional Pattern-Producing Networks) [10:05].

В Enhanced POET ландшафт создается нейронной сетью. Архитектура этой сети не фиксирована — она эволюционирует в тандеме с агентами [10:19]. В сеть могут добавляться новые узлы (синусы, косинусы, математические операции), что делает ландшафты всё более причудливыми и сложными [10:49]. Поскольку теперь сравнение сред идет через поведение агентов, алгоритму не важно, как именно устроена внутренняя архитектура генератора — он может сравнивать «яблоки с апельсинами», опираясь только на то, какой опыт они дают обучающимся моделям [11:15].

## 📉 Метрика ANNEX: как измерить прогресс бесконечности
[[JUMP:11:57]]

Одной из самых сложных задач в открытых (open-ended) алгоритмах является оценка их эффективности, так как у них нет единой финальной цели. Авторы предложили метрику **ANNEX score** (Accumulated Number of Novel Environments Created and Solved) [12:11].

*   Она подсчитывает количество созданных уникальных сред, которые отвечают «минимальному критерию» (среда не слишком простая, но и не непреодолимо сложная) и которые агенты в итоге смогли успешно пройти (решить) [13:01].
*   Сравнение графиков показывает, что оригинальный POET быстро выходит на плато: из-за ограниченности генератора он перестает создавать нечто радикально новое [13:43].
*   Enhanced POET продолжает «изобретать» и обучаться на протяжении всего времени работы, не демонстрируя признаков насыщения [13:56].

## 💬 Критика: риск «инженерного тупика»
[[JUMP:14:27]]

Несмотря на впечатляющие результаты, Янник Килчер высказывает определенный скепсис в отношении архитектуры генераторов уровней. По его мнению, хотя визуально ландшафты стали разнообразнее, они в некотором роде стали более «однообразно сложными» [14:40].

Килчер полагает, что исследователи рискуют «загнать себя в угол», чрезмерно полагаясь на эволюционирующие параметризованные генераторы. В такой системе успех слишком сильно зависит от способности генератора плавно наращивать сложность, не создавая «непроходимых зон» [14:54]. Тем не менее, он признает идеи Enhanced POET важным шагом в создании систем, способных к неограниченному саморазвитию [15:34].