Янник Килчер об Enhanced POET: «Бесконечная изобретательность ИИ в создании новых миров»

Yannic Kilcher 2 тыс. 15 мин 3 мин 10.04.2020
Главное

Развитие систем искусственного интеллекта часто упирается в потолок сложности среды: агент быстро обучается решению конкретной задачи и перестает прогрессировать. Исследование «Enhanced POET», представленное коллективом авторов, включая ветеранов индустрии ИИ Джеффа Клуна и Кеннета О. Стэнли, предлагает выход через «бесконечную изобретательность» — алгоритм, который сам создает себе всё более сложные миры.

🚀 Суть Enhanced POET: открытое обучение без границ 1:36

Enhanced POET (Paired Open-Ended Trailblazer) представляет собой усовершенствованную версию оригинального алгоритма POET. По своей сути это популяционный метод обучения с подкреплением (Reinforcement Learning), работа которого строится на двух параллельных процессах :

  1. Создание миров: система генерирует новые среды (уровни), варьируя их сложность.
  2. Эволюция агентов: для каждой среды обучается свой агент, способный справиться со специфическими условиями.

Ключевая особенность Enhanced POET заключается в «переносе знаний» (transfers). Если агент, обученный в одной ветке эволюционного древа, внезапно оказывается более эффективным в среде другой ветки, происходит трансфер — этот агент заменяет прежнего «хозяина» локации . Это позволяет системе не просто оптимизировать решение, а находить неожиданные стратегии через параллельное исследование разных путей развития.

📏 Метод измерения новизны: отказ от параметров в пользу поведения 4:19

В первой версии POET новизна среды определялась по жестко заданным физическим параметрам. Генератор уровней оперировал пятимерным вектором, где числами задавались высота препятствий, глубина ям и шероховатость ландшафта . Дистанция между окружениями вычислялась как обычное евклидово расстояние. Янник Килчер отмечает, что такой подход слишком специфичен для конкретных задач и ограничивает систему .

В Enhanced POET авторы внедрили доменно-агностическую метрику новизны :

Согласно утверждению авторов, если среда стала просто сложнее, но лучшие агенты остались лучшими, она не считается качественно новой. Новизна возникает тогда, когда для успеха в мире требуются принципиально иные навыки, что и фиксирует эта поведенческая метрика .

🧠 Эволюционирующие нейронные сети как генераторы миров 9:53

Отказ от фиксированных параметров среды позволил использовать гораздо более мощные инструменты генерации — CPPN (Compositional Pattern-Producing Networks) .

В Enhanced POET ландшафт создается нейронной сетью. Архитектура этой сети не фиксирована — она эволюционирует в тандеме с агентами . В сеть могут добавляться новые узлы (синусы, косинусы, математические операции), что делает ландшафты всё более причудливыми и сложными . Поскольку теперь сравнение сред идет через поведение агентов, алгоритму не важно, как именно устроена внутренняя архитектура генератора — он может сравнивать «яблоки с апельсинами», опираясь только на то, какой опыт они дают обучающимся моделям .

📉 Метрика ANNEX: как измерить прогресс бесконечности 11:57

Одной из самых сложных задач в открытых (open-ended) алгоритмах является оценка их эффективности, так как у них нет единой финальной цели. Авторы предложили метрику ANNEX score (Accumulated Number of Novel Environments Created and Solved) .

💬 Критика: риск «инженерного тупика» 14:27

Несмотря на впечатляющие результаты, Янник Килчер высказывает определенный скепсис в отношении архитектуры генераторов уровней. По его мнению, хотя визуально ландшафты стали разнообразнее, они в некотором роде стали более «однообразно сложными» .

Килчер полагает, что исследователи рискуют «загнать себя в угол», чрезмерно полагаясь на эволюционирующие параметризованные генераторы. В такой системе успех слишком сильно зависит от способности генератора плавно наращивать сложность, не создавая «непроходимых зон» . Тем не менее, он признает идеи Enhanced POET важным шагом в создании систем, способных к неограниченному саморазвитию .

💬 Цитаты

«По сути, дистанция между окружениями была вектором размера пять... это очень специфично для конкретной области.»

Янник Килчер 05:37

«Enhanced POET продолжает внедрять новые, более сложные среды непрерывно.»

Янник Килчер 13:56

«Вы можете обнаружить, что инженерно загнали себя в угол, где всё больше зависите от этих эволюционирующих генераторов.»

Янник Килчер 15:22
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement Learning (RL)
Метод обучения ИИ, при котором агент получает награды или штрафы за свои действия в среде.
CPPN (Compositional Pattern-Producing Networks)
Тип нейронных сетей, которые создают сложные геометрические узоры или структуры на основе математических функций.
ANNEX score
Метрика, измеряющая количество уникальных и решенных задач, созданных системой за всё время работы.
Transfer (Трансфер)
Процесс переноса обученного агента из одной среды в другую, где он оказывается более эффективным.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Enhanced POET Reinforcement Learning Jeff Clune Kenneth O Stanley CPPN