Разбор POET: Как открытые алгоритмы от Uber генерируют задачи и решения

Ведущие нового научно-популярного YouTube-канала Machine Learning Street Talk вместе с приглашенными экспертами провели глубокий аналитический разбор алгоритма POET (Paired Open-Ended Trailblazer), разработанного исследователями Uber AI. В центре дискуссии — новая парадигма открытых алгоритмов (open-endedness), способных одновременно и бесконечно генерировать как усложняющиеся условия среды, так и их решения силами нейросетевых агентов. Этот подход кардинально меняет вектор развития искусственного интеллекта, предлагая отказаться от жестко заданных человеком оптимизационных целей в пользу непрерывных эволюционных процессов.

🧬 Открытый финал эволюции: Философия алгоритма POET 7:31

В традиционном машинном обучении принято использовать фиксированную среду и обучать модель выполнять одну конкретную задачу. Однако концепция алгоритмов, генерирующих ИИ (AI-generating algorithms), предлагает принципиально иной путь. Исследователь Янник Килчер вспоминает доклад Джеффа Клуна и Кеннета Стенли на конференции ICML, где прозвучала мысль, ставшая фундаментальной для этого направления: колоссальное разнообразие и сложность жизни на Земле возникли в результате всего лишь одного непрерывного запуска процесса оптимизации. В отличие от классического ML, где инженеры постоянно перезапускают обучение с новыми гиперпараметрами, земная эволюция представляет собой единый открытый процесс (open-ended run).

Алгоритм POET стремится воссоздать этот механизм, создавая агентов, которые живут в мирах, где и те, и другие непрерывно развиваются параллельно. Агенты улучшают навыки преодоления препятствий, а ландшафт сред усложняется и разветвляется, как только старые преграды оказываются пройденными. В качестве экспериментального полигона авторы работы использовали двуногого шагающего робота (Bipedal Walker), цель которого — пройти как можно дальше вправо. По мнению спикеров, если решать эту задачу классическими методами обучения с подкреплением (RL), исследователи столкнутся с непреодолимыми трудностями, тогда как эволюционный метод генерации и мутации сред делает эту проблему решаемой.

🗺️ Смена целей против классического Curriculum Learning 11:08

Важной частью дискуссии стало сопоставление POET с обучением по учебной программе (Curriculum Learning). Классический подход подразумевает последовательное, пошаговое наращивание сложности задачи, чтобы агент мог опираться на опыт предыдущего шага. Однако участники беседы отмечают, что этого часто недостаточно.

Ключевым отличием POET является механизм автоматической смены целей (goal switching), завязанный на миграцию агентов между изолированными средами. Янник Килчер объясняет этот феномен на наглядном примере:

Если в одной среде постепенно увеличивать высоту обрыва, агент в определенный момент неизбежно потерпит неудачу и процесс остановится.
Если параллельно в другой среде развивать навык хождения по лестнице, то умение переставлять ноги на разной высоте может внезапно оказаться идеальным решением для прыжков с обрыва.

Перенос освоенных навыков между агентами из разных сред позволяет преодолевать тупики обучения, которые классический Curriculum Learning обойти не способен. Коннор Шортен предложил рассматривать агента и окружающую среду как единый геном. С этой точки зрения, алгоритм фактически осуществляет удачную рекомбинацию: исследователь может безболезненно извлечь агента из одной «половины» генома и поместить в другую среду, и система продолжит эффективно функционировать.

🛑 Проблема потери информации и критика методологии 14:16

Не все участники дискуссии разделили оптимизм по поводу архитектуры алгоритма. Технологический стратег Кит выразил скепсис относительно новизны и эффективности подхода. По его мнению, в алгоритме практически отсутствует реальная генетическая рекомбинация в классическом понимании. POET использует жесткую функцию потерь "ноль-один": если один агент показывает себя в среде лучше другого, он просто полностью заменяет старую модель.

Кит высказал опасение, что на выходе исследователи получают лишь набор узкоспециализированных ИИ, отлично справляющихся с изолированными подмножествами сред, но у человечества по-прежнему нет инструмента для их объединения в общую универсальную систему. Спикер сравнил этот процесс с алгоритмом имитации отжига (simulated annealing), где высокая температура сглаживает локальные структуры ландшафта, позволяя перепрыгивать в другие области в поисках глобального оптимума, а охлаждение заставляет учитывать детали. Схожий процесс усложнения среды происходит и в POET.

С критической точки зрения Кита, алгоритм страдает от постоянной потери ценной информации на каждом шаге, поскольку учитывается вклад только самой лучшей модели, а наработки остальных полностью игнорируются. В реальной эволюции вид, занявший экологическую нишу, может полностью уничтожить конкурирующую ветвь, лишая экосистему потенциально полезных мутаций. В результате мы получаем миллионы специализированных видов: например, жгутик бактерии несет в себе крайне мало информации, которая могла бы помочь человеку развить строение ног.

Из этого тезиса выросла важная практическая проблема, сформулированная Китом:

«Представьте, что я запустил POET на огромных мощностях Azure и на выходе получил пять отличных специализированных агентов. Что мне делать дальше? Какого из них мне загружать в реального физического робота?»

В качестве решения Мэттью предложил использовать «модель мира» (world model) для симуляции среды, проводя автоматическую рандомизацию доменов (Domain Randomization), аналогично тому, как OpenAI обучали роборуку собирать Кубик Рубика. Янник Килчер добавил, что для решения прикладных задач в алгоритм необходимо вводить контролируемое селективное давление (selective pressure): сначала запускать POET в режиме чистой генерации и исследования, а затем постепенно заставлять среду мутировать в сторону конкретной практической цели.

🏗️ Индуктивные приоры и сеть генерации композиционных паттернов 40:43

Одной из уникальных особенностей POET является генерация ландшафтов с помощью сети генерации композиционных паттернов (CPPN). Мэттью и Коннор подчеркнули, что эта сеть избавляет инженеров от ручного проектирования метрик среды (таких как частота препятствий, высота холмов или глубина рвов). Вместо этого CPPN кодирует математическое пространство среды, позволяя совершать резкие глобальные скачки при мутациях.

Участники обсудили роль индуктивных приоров (приоров индукции) в архитектуре. С одной стороны, полное отсутствие жестких ограничений кажется необходимым для истинной открытости ИИ. С другой стороны, по мнению Янника, важнейшим скрытым приором в подобных алгоритмах выступает математическая непрерывность и гладкость (smoothness). Среда кодируется таким образом, что минимальное изменение исходного числового значения (seed) приводит лишь к незначительному изменению ландшафта, иначе у агентов не было бы шансов адаптироваться к мутациям.

Дискуссия затронула и эволюцию самого программного обеспечения:

Ранний этап: Системы, полностью построенные на созданных вручную экспертных правилах.
Эпоха глубокого обучения: Алгоритмы сами извлекают признаки из данных, но архитектура сетей по-прежнему жестко кодируется человеком (индуктивные приоры).
Современный этап (POET): Полный отказ от ручного проектирования — машина сама создает и задачи (учебную программу), и правила их решения.

🧠 Природа интеллекта: Взгляд Франсуа Шолле и проблема бенчмарков 27:51

Тим Скарф напомнил участникам известную работу Франсуа Шолле «О измерении интеллекта» (On the Measure of Intelligence). Шолле утверждает, что взрывной рост интеллекта невозможен, а сам интеллект является не абстрактной изолированной величиной, а функцией и выражением среды, в которой агент обитает. POET служит отличной иллюстрацией этого тезиса: поведение агента намертво привязано к геометрии препятствий.

Янник Килчер выразил сомнение в том, что алгоритмы открытого типа вообще способны создать универсальный интеллект. По его словам, POET спроектирован так, чтобы генерировать «нечто супер-интересное», но у нас нет математической теоремы, доказывающей, что движение в сторону максимального интереса обязательно приведет к возникновению разума.

Спикеры также критически оценили методологию тестирования алгоритма авторами исследования. Разработчики POET сравнивали свой продукт с классическими алгоритмами (такими как PPO) на тех средах, которые POET сам же и сгенерировал в процессе эволюции. Янник считает такое сравнение не вполне корректным. По его мнению, честным тестом была бы оценка обученных агентов на заранее заданном стороннем наборе сложных тестовых сред (preset test set).

💻 Инженерные ограничения и вычислительные затраты 53:34

С инженерной точки зрения алгоритм POET невероятно сложен и требователен к ресурсам. В базовой версии авторы были вынуждены жестко ограничить популяцию сред и агентов, выбрасывая самые старые ветви просто из-за невозможности поддерживать их симуляцию одновременно. В каждый момент времени в системе поддерживалось около 40 активных агентов.

Временная сложность алгоритма включает в себя огромные вложенные циклы:

На каждом шаге нужно мутировать каждую среду.
Необходимо протестировать всех существующих агентов в этой новой мутировавшей среде для оценки потенциала переноса навыков.
Для каждого агента запускается внутренний эволюционный шаг оптимизации с внесением шумовых помех в параметры.

Инженерам приходится вручную настраивать колоссальное количество пороговых значений (гиперпараметров): шаг оптимизации, скорость обучения, уровень шума, а также математические критерии того, когда среда становится «слишком простой» или «слишком сложной» для популяции. Потребуется целая команда инженеров и огромный кластер, чтобы просто воспроизвести этот эксперимент. Согласно приведенным в дискуссии цифрам, оптимизированная версия Enhanced POET требует 12 дней непрерывных вычислений на кластере из 750 процессоров (CPU) для одного полноценного запуска.

👁️ Состязательные атаки и перенос на контролируемое обучение 45:41

В финальной части беседы участники обсудили возможность интеграции подходов POET в стандартные задачи компьютерного зрения и классификации изображений (например, ImageNet). Коннор Шортен привел в пример Generative Teaching Networks (GTN) — мета-обучающую структуру, где нейросеть-учитель генерирует синтетический датасет. Этот набор данных внешне выглядит как хаотичный шум, однако классификатор, обучившийся на нем всего за 10 шагов, показывает точность в 90% на реальной валидационной выборке.

Спикеры сошлись во мнении, что данные, генерируемые подобными обучающими сетями, имеют глубокую внутреннюю связь с состязательными примерами (adversarial examples). Такие изображения содержат высокочастотные паттерны низкого масштаба, которые человеческий глаз не воспринимает, но которые являются определяющими признаками для нейросети. Кит призвал исследователей не исключать человека из процесса проектирования признаков (feature engineering) полностью, а стремиться к синергии и детальной интерпретируемости внутренних слоев моделей.

В качестве альтернативы для работы с ImageNet Коннор предложил идею ансамблирования популяции POET: разделять огромный датасет на специфические подмножества данных между разными агентами, а затем переключать контроллеры прямо в процессе инференса, создавая сверхустойчивую составную модель.