# Янник Килхер: «Великие открытия нельзя спланировать»

Источник: https://www.youtube.com/watch?v=TFiZYA_JfJs
Канал: Yannic Kilcher
Опубликовано: 12.06.2019

---

В этом материале Янник Килхер (Yannic Kilcher) делится впечатлениями от туториала по популяционному поиску и открытым алгоритмам обучения, представленного на одной из крупнейших ИИ-конференций. Автор разбирает, почему традиционная оптимизация по функции потерь часто заводит исследователей в тупик и как отказ от конкретных целей в пользу «поиска новизны» позволяет решать сложнейшие задачи — от прохождения непроходимых видеоигр до создания роботов, способных мгновенно восстанавливаться после поломок.

## 🚀 Проблема «обмана» в традиционном обучении
[[JUMP:0:00]]

Традиционный подход к машинному обучению обычно сводится к минимизации одной функции потерь или максимизации одной награды для поиска единственного оптимального решения. Однако Янник Килхер отмечает, что такой метод страдает от проблемы, которую исследователи называют «обманом» (deception) [1:17].

Суть проблемы заключается в следующем:

*   **Отсутствие «ступенек»:** В сложных задачах с разреженным вознаграждением (например, в игре Montezuma’s Revenge для Atari) алгоритм не получает никакой обратной связи, пока не выполнит длинную цепочку действий: найдет ключ, дойдет до двери и откроет её [1:58].
*   **Ложные ориентиры:** Попытки исследователей вручную сконструировать промежуточные функции вознаграждения часто приводят к тому, что алгоритм находит «лазейку» и оптимизирует показатель, который не ведет к реальному решению задачи [1:45].

Янник Килхер подчеркивает, что природа справляется с этой проблемой иначе: у естественной эволюции нет конечной цели (кроме самого факта воспроизводства), но она породила всё невероятное разнообразие жизни, заполняющее самые разные экологические ниши [2:22]. По мнению автора, именно этот принцип лежит в основе популяционного поиска: вместо поиска одного идеального решения нужно поддерживать целую популяцию разнообразных решений [0:51].

## 📊 Алгоритм MAP-Elites и концепция «Качество-Разнообразие»
[[JUMP:3:30]]

Одним из центральных понятий туториала стала концепция Quality Diversity (качество через разнообразие). Её цель — найти наилучший пример для каждого возможного типа поведения [3:59].

Для реализации этого подхода используется алгоритм MAP-Elites (Multi-dimensional Archive of Phenotypic Elites). Процесс его работы выглядит так:

1.  **Определение измерений:** Исследователи выбирают важные характеристики поведения (например, скорость робота, его высота, степень маскировки) [4:12].
2.  **Дискретизация:** Каждое измерение разбивается на отрезки, образуя сетку ячеек (grid of cells) [4:26].
3.  **Архивация «элиты»:** В каждой ячейке хранится только самый лучший («элитный») представитель, обладающий именно этим сочетанием характеристик [4:42].
4.  **Мутация и развитие:** Алгоритм берет существующих «элит», мутирует их и проверяет, в какую ячейку попал потомок. Если потомок лучше того, кто уже находится в этой ячейке, он заменяет предшественника [5:08].

Янник Килхер сравнивает этот процесс с алгоритмом Дейкстры для поиска кратчайшего пути, экстраполированным на пространство поведений [5:34]. В итоге исследователь получает не один результат, а целый «ландшафт» решений для любых условий [6:01].

## 💡 Переключение целей и «эффект микроволновки»
[[JUMP:6:42]]

Важным преимуществом популяционного подхода является механизм, который Янник Килхер называет «переключением целей» (goal switching). Это ситуация, когда наработки в одной линии развития неожиданно становятся ключом к успеху в совершенно другой [6:42].

В качестве исторической аналогии Янник приводит изобретение микроволновой печи [7:53]:

*   Ученые работали над технологией радаров (военная цель).
*   В процессе исследований были открыты свойства микроволн, которые позволили создать принципиально новый способ нагрева пищи.
*   Если бы исследователи ставили целью только «сделать духовку эффективнее», они бы никогда не пришли к созданию магнетрона, так как это не было логическим шагом в развитии обычных печей [8:05].

В популяционных алгоритмах это работает так же: мутация «охотника» может внезапно привести к открытию идеального механизма «камуфляжа», который затем будет использован в другой ветке популяции [7:11].

## 🤖 Практическое применение: роботы и игры
[[JUMP:8:46]]

Янник Килхер приводит впечатляющий пример с шестиногим роботом, которого обучали ходить [8:46]. 

*   **Традиционный подход:** Если обучить одну нейросеть управлять роботом и затем сломать одну ногу, робот, скорее всего, станет бесполезным, так как его единственное решение больше не работает [9:00].
*   **Популяционный подход:** Поскольку у исследователей есть «ландшафт» из тысяч решений (разные способы передвижения), робот может мгновенно протестировать другие варианты из архива и найти тот, который всё еще работает с пятью ногами [9:15].

Другой пример — алгоритм Go-Explore, который решил задачу Montezuma’s Revenge [9:46]. Он сохраняет архив всех достигнутых состояний игры. Вместо того чтобы каждый раз начинать с нуля, алгоритм выбирает случайное состояние из архива и начинает исследовать мир оттуда. Если он находит более быстрый путь к уже известному состоянию, он обновляет запись в архиве (снова принцип алгоритма Дейкстры) [10:42].

## 🌍 Открытые алгоритмы и Picbreeder
[[JUMP:11:47]]

Последняя часть обсуждения посвящена «открытому поиску» (open-ended search). Янник Килхер дает интересное определение: алгоритм можно считать открытым, если спустя миллиард лет его работы он всё еще будет производить что-то интересное и новое [12:29].

Ключевые свойства открытых систем:

1.  **Постоянное движение:** Меняется не только популяция, но и сама среда обитания [12:57].
2.  **Создание ниш:** Появление новых существ меняет среду, открывая возможности для эволюции следующих поколений [13:12].

В качестве примера «человека в цикле» Янник упоминает проект Picbreeder [13:40]. Пользователи на сайте выбирают понравившиеся изображения, которые генерируются процедурно. Путем простых мутаций и скрещиваний (всего за сотни итераций) люди создавали сложнейшие узнаваемые образы (лица, объекты), которые невозможно было бы получить, если бы целью изначально стояло «нарисовать лицо» [14:47].

Главный урок этих исследований, по мнению Янника Килхера: люди находят великие вещи только тогда, когда они их не ищут целенаправленно [15:17]. Жесткая фиксация на цели ограничивает поиск, в то время как поиск новизны открывает двери к по-настоящему прорывным решениям.