В этом материале Янник Килхер (Yannic Kilcher) делится впечатлениями от туториала по популяционному поиску и открытым алгоритмам обучения, представленного на одной из крупнейших ИИ-конференций. Автор разбирает, почему традиционная оптимизация по функции потерь часто заводит исследователей в тупик и как отказ от конкретных целей в пользу «поиска новизны» позволяет решать сложнейшие задачи — от прохождения непроходимых видеоигр до создания роботов, способных мгновенно восстанавливаться после поломок.
🚀 Проблема «обмана» в традиционном обучении 0:00
Традиционный подход к машинному обучению обычно сводится к минимизации одной функции потерь или максимизации одной награды для поиска единственного оптимального решения. Однако Янник Килхер отмечает, что такой метод страдает от проблемы, которую исследователи называют «обманом» (deception) .
Суть проблемы заключается в следующем:
- Отсутствие «ступенек»: В сложных задачах с разреженным вознаграждением (например, в игре Montezuma’s Revenge для Atari) алгоритм не получает никакой обратной связи, пока не выполнит длинную цепочку действий: найдет ключ, дойдет до двери и откроет её .
- Ложные ориентиры: Попытки исследователей вручную сконструировать промежуточные функции вознаграждения часто приводят к тому, что алгоритм находит «лазейку» и оптимизирует показатель, который не ведет к реальному решению задачи .
Янник Килхер подчеркивает, что природа справляется с этой проблемой иначе: у естественной эволюции нет конечной цели (кроме самого факта воспроизводства), но она породила всё невероятное разнообразие жизни, заполняющее самые разные экологические ниши . По мнению автора, именно этот принцип лежит в основе популяционного поиска: вместо поиска одного идеального решения нужно поддерживать целую популяцию разнообразных решений .
📊 Алгоритм MAP-Elites и концепция «Качество-Разнообразие» 3:30
Одним из центральных понятий туториала стала концепция Quality Diversity (качество через разнообразие). Её цель — найти наилучший пример для каждого возможного типа поведения .
Для реализации этого подхода используется алгоритм MAP-Elites (Multi-dimensional Archive of Phenotypic Elites). Процесс его работы выглядит так:
- Определение измерений: Исследователи выбирают важные характеристики поведения (например, скорость робота, его высота, степень маскировки) .
- Дискретизация: Каждое измерение разбивается на отрезки, образуя сетку ячеек (grid of cells) .
- Архивация «элиты»: В каждой ячейке хранится только самый лучший («элитный») представитель, обладающий именно этим сочетанием характеристик .
- Мутация и развитие: Алгоритм берет существующих «элит», мутирует их и проверяет, в какую ячейку попал потомок. Если потомок лучше того, кто уже находится в этой ячейке, он заменяет предшественника .
Янник Килхер сравнивает этот процесс с алгоритмом Дейкстры для поиска кратчайшего пути, экстраполированным на пространство поведений . В итоге исследователь получает не один результат, а целый «ландшафт» решений для любых условий .
💡 Переключение целей и «эффект микроволновки» 6:42
Важным преимуществом популяционного подхода является механизм, который Янник Килхер называет «переключением целей» (goal switching). Это ситуация, когда наработки в одной линии развития неожиданно становятся ключом к успеху в совершенно другой .
В качестве исторической аналогии Янник приводит изобретение микроволновой печи :
- Ученые работали над технологией радаров (военная цель).
- В процессе исследований были открыты свойства микроволн, которые позволили создать принципиально новый способ нагрева пищи.
- Если бы исследователи ставили целью только «сделать духовку эффективнее», они бы никогда не пришли к созданию магнетрона, так как это не было логическим шагом в развитии обычных печей .
В популяционных алгоритмах это работает так же: мутация «охотника» может внезапно привести к открытию идеального механизма «камуфляжа», который затем будет использован в другой ветке популяции .
🤖 Практическое применение: роботы и игры 8:46
Янник Килхер приводит впечатляющий пример с шестиногим роботом, которого обучали ходить .
- Традиционный подход: Если обучить одну нейросеть управлять роботом и затем сломать одну ногу, робот, скорее всего, станет бесполезным, так как его единственное решение больше не работает .
- Популяционный подход: Поскольку у исследователей есть «ландшафт» из тысяч решений (разные способы передвижения), робот может мгновенно протестировать другие варианты из архива и найти тот, который всё еще работает с пятью ногами .
Другой пример — алгоритм Go-Explore, который решил задачу Montezuma’s Revenge . Он сохраняет архив всех достигнутых состояний игры. Вместо того чтобы каждый раз начинать с нуля, алгоритм выбирает случайное состояние из архива и начинает исследовать мир оттуда. Если он находит более быстрый путь к уже известному состоянию, он обновляет запись в архиве (снова принцип алгоритма Дейкстры) .
🌍 Открытые алгоритмы и Picbreeder 11:47
Последняя часть обсуждения посвящена «открытому поиску» (open-ended search). Янник Килхер дает интересное определение: алгоритм можно считать открытым, если спустя миллиард лет его работы он всё еще будет производить что-то интересное и новое .
Ключевые свойства открытых систем:
- Постоянное движение: Меняется не только популяция, но и сама среда обитания .
- Создание ниш: Появление новых существ меняет среду, открывая возможности для эволюции следующих поколений .
В качестве примера «человека в цикле» Янник упоминает проект Picbreeder . Пользователи на сайте выбирают понравившиеся изображения, которые генерируются процедурно. Путем простых мутаций и скрещиваний (всего за сотни итераций) люди создавали сложнейшие узнаваемые образы (лица, объекты), которые невозможно было бы получить, если бы целью изначально стояло «нарисовать лицо» .
Главный урок этих исследований, по мнению Янника Килхера: люди находят великие вещи только тогда, когда они их не ищут целенаправленно . Жесткая фиксация на цели ограничивает поиск, в то время как поиск новизны открывает двери к по-настоящему прорывным решениям.