Янник Килхер: «Великие открытия нельзя спланировать»

Yannic Kilcher 5,9 тыс. 16 мин 4 мин 12.06.2019
Главное

В этом материале Янник Килхер (Yannic Kilcher) делится впечатлениями от туториала по популяционному поиску и открытым алгоритмам обучения, представленного на одной из крупнейших ИИ-конференций. Автор разбирает, почему традиционная оптимизация по функции потерь часто заводит исследователей в тупик и как отказ от конкретных целей в пользу «поиска новизны» позволяет решать сложнейшие задачи — от прохождения непроходимых видеоигр до создания роботов, способных мгновенно восстанавливаться после поломок.

🚀 Проблема «обмана» в традиционном обучении 0:00

Традиционный подход к машинному обучению обычно сводится к минимизации одной функции потерь или максимизации одной награды для поиска единственного оптимального решения. Однако Янник Килхер отмечает, что такой метод страдает от проблемы, которую исследователи называют «обманом» (deception) .

Суть проблемы заключается в следующем:

Янник Килхер подчеркивает, что природа справляется с этой проблемой иначе: у естественной эволюции нет конечной цели (кроме самого факта воспроизводства), но она породила всё невероятное разнообразие жизни, заполняющее самые разные экологические ниши . По мнению автора, именно этот принцип лежит в основе популяционного поиска: вместо поиска одного идеального решения нужно поддерживать целую популяцию разнообразных решений .

📊 Алгоритм MAP-Elites и концепция «Качество-Разнообразие» 3:30

Одним из центральных понятий туториала стала концепция Quality Diversity (качество через разнообразие). Её цель — найти наилучший пример для каждого возможного типа поведения .

Для реализации этого подхода используется алгоритм MAP-Elites (Multi-dimensional Archive of Phenotypic Elites). Процесс его работы выглядит так:

  1. Определение измерений: Исследователи выбирают важные характеристики поведения (например, скорость робота, его высота, степень маскировки) .
  2. Дискретизация: Каждое измерение разбивается на отрезки, образуя сетку ячеек (grid of cells) .
  3. Архивация «элиты»: В каждой ячейке хранится только самый лучший («элитный») представитель, обладающий именно этим сочетанием характеристик .
  4. Мутация и развитие: Алгоритм берет существующих «элит», мутирует их и проверяет, в какую ячейку попал потомок. Если потомок лучше того, кто уже находится в этой ячейке, он заменяет предшественника .

Янник Килхер сравнивает этот процесс с алгоритмом Дейкстры для поиска кратчайшего пути, экстраполированным на пространство поведений . В итоге исследователь получает не один результат, а целый «ландшафт» решений для любых условий .

💡 Переключение целей и «эффект микроволновки» 6:42

Важным преимуществом популяционного подхода является механизм, который Янник Килхер называет «переключением целей» (goal switching). Это ситуация, когда наработки в одной линии развития неожиданно становятся ключом к успеху в совершенно другой .

В качестве исторической аналогии Янник приводит изобретение микроволновой печи :

В популяционных алгоритмах это работает так же: мутация «охотника» может внезапно привести к открытию идеального механизма «камуфляжа», который затем будет использован в другой ветке популяции .

🤖 Практическое применение: роботы и игры 8:46

Янник Килхер приводит впечатляющий пример с шестиногим роботом, которого обучали ходить .

Другой пример — алгоритм Go-Explore, который решил задачу Montezuma’s Revenge . Он сохраняет архив всех достигнутых состояний игры. Вместо того чтобы каждый раз начинать с нуля, алгоритм выбирает случайное состояние из архива и начинает исследовать мир оттуда. Если он находит более быстрый путь к уже известному состоянию, он обновляет запись в архиве (снова принцип алгоритма Дейкстры) .

🌍 Открытые алгоритмы и Picbreeder 11:47

Последняя часть обсуждения посвящена «открытому поиску» (open-ended search). Янник Килхер дает интересное определение: алгоритм можно считать открытым, если спустя миллиард лет его работы он всё еще будет производить что-то интересное и новое .

Ключевые свойства открытых систем:

  1. Постоянное движение: Меняется не только популяция, но и сама среда обитания .
  2. Создание ниш: Появление новых существ меняет среду, открывая возможности для эволюции следующих поколений .

В качестве примера «человека в цикле» Янник упоминает проект Picbreeder . Пользователи на сайте выбирают понравившиеся изображения, которые генерируются процедурно. Путем простых мутаций и скрещиваний (всего за сотни итераций) люди создавали сложнейшие узнаваемые образы (лица, объекты), которые невозможно было бы получить, если бы целью изначально стояло «нарисовать лицо» .

Главный урок этих исследований, по мнению Янника Килхера: люди находят великие вещи только тогда, когда они их не ищут целенаправленно . Жесткая фиксация на цели ограничивает поиск, в то время как поиск новизны открывает двери к по-настоящему прорывным решениям.

💬 Цитаты

«Люди находят великие вещи только тогда, когда они их не ищут.»

Янник Килхер 15:17

«Если алгоритм спустя миллиард лет работы всё еще производит что-то интересное — это открытый алгоритм.»

Янник Килхер 12:29
👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Deception (Обман)
Ситуация в обучении с подкреплением, когда локальные максимумы вознаграждения уводят агента в сторону от глобальной цели.
MAP-Elites
Алгоритм, который распределяет решения по многомерной сетке характеристик, сохраняя лучших представителей для каждой комбинации признаков.
Quality Diversity
Подход в эволюционных алгоритмах, направленный на поиск максимально качественных, но при этом максимально разнообразных решений.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Population-Based Search MAP-Elites Go-Explore Quality Diversity Open-ended learning