# Юлиан Тогелиус: «Парадигма Quality Diversity со временем поглотит весь ИИ»

Источник: https://www.youtube.com/watch?v=iqkkkA9dtY0
Канал: Machine Learning Street Talk
Опубликовано: 20.11.2022

---

В новом выпуске Machine Learning Street Talk встретились два ведущих исследователя современности: Юлиан Тогелиус и Кен Стэнли. В центре дискуссии — роль видеоигр как идеального полигона для развития искусственного интеллекта, фундаментальные ограничения обучения с подкреплением и концепция «открытого» поиска, где целью является не конкретный результат, а постоянное усложнение и разнообразие систем.

## 🎮 Видеоигры как карта когнитивных способностей
[[JUMP:01:09]]

Юлиан Тогелиус утверждает, что видеоигры являются лучшим испытательным стендом для ИИ, поскольку они по определению тестируют способность к когнитивной адаптации [01:33]. В отличие от шахмат или го, где системы вроде Deep Blue или AlphaGo достигли сверхчеловеческого уровня, но остались бесполезными за пределами своих узких задач, видеоигры предлагают широчайшее пространство дизайна. 

По мнению исследователя, геймдизайнеры, создавая новые механики, фактически картографируют пространство человеческого мышления [02:13]. Юлиан Тогелиус отмечает:

*   Интеллект — это способность быстро наращивать новые навыки на базе уже имеющихся знаний [03:05].
*   Опытный игрок быстро осваивает случайную игру из Steam, потому что он развил «игровой интеллект», понимая конвенции жанров [04:23].
*   Абсолютного, общего интеллекта не существует; любая форма разума всегда относительна конкретной области или домену [04:37].

Кен Стэнли добавляет, что игры охватывают огромный спектр возможностей — от механик выживания до сложных социальных взаимодействий, что делает их потенциально пригодными для обучения ИИ человеческого уровня [05:14].

## 🏗️ Почему ИИ до сих пор не изменил игровую индустрию?
[[JUMP:05:41]]

Несмотря на теоретический потенциал, внедрение передового ИИ в коммерческие игры сталкивается с серьезными трудностями. Юлиан Тогелиус, будучи сооснователем компании **model.ai**, признает, что «прекрасная мечта» о синергии ИИ и игр оказалась сложнее в реализации [06:07].

Основные препятствия, по словам Юлиана:

1.  **Консервативность дизайна:** Большинство современных жанров (RPG, шутеры) строились вокруг *отсутствия* полезного ИИ. Механики вроде «деревьев диалогов» были придуманы в 80-х годах из-за нехватки вычислительных мощностей и отсутствия технологий обработки естественного языка [07:15].
2.  **Экономические риски:** Разработка ААА-игры стоит около 100 миллионов долларов. Издатели боятся экспериментировать с непредсказуемыми агентами, которые могут сломать игровой баланс или сделать игру хуже [09:17].
3.  **Узкое применение:** В индустрии ИИ сейчас используется в основном для автоматизации тестирования или процедурной анимации, но не для создания принципиально нового игрового опыта [10:30].

Тем не менее, существуют исключения. Юлиан Тогелиус упоминает проект **AI Dungeon** Ника Уолтона как пример смелой попытки построить игру на базе современных языковых моделей (LLM) [12:02].

## 🧠 Миф об «Общем» интеллекте и проблема AGI
[[JUMP:17:22]]

Юлиан Тогелиус скептически относится к самому термину AGI (искусственный общий интеллект). Он считает, что интеллект всегда привязан к среде. Даже человек не обладает «общим» интеллектом в абсолютном смысле: профессор из Нью-Йорка может быть беспомощным в вопросах выплавки чугуна или сбора пшеницы [19:33].

Оба собеседника критически оценивают аргумент о «взрыве интеллекта» (intelligence explosion) и супер интеллекте, популяризированный Ником Бостромом:

*   **Проблема самосовершенствования:** Чтобы ИИ мог бесконечно улучшать себя, ему недостаточно переписывать свой код. Ему нужно контролировать всю глобальную цепочку поставок: добычу ресурсов, логистику, производство литографических машин и лазеров [23:39].
*   **Цивилизация как организм:** По мнению Юлиана Тогелиуса, единственная реально существующая форма супер интеллекта — это сама человеческая цивилизация, где миллиарды людей являются узлами распределенной системы принятия решений [24:18].
*   **Конспирологический аспект:** Идея об ИИ, который «сидит в коробке» и управляет миром как марионетками, кажется гостю крайне маловероятной и напоминает ошибочные теории заговора [24:58].

## 🤖 Новые горизонты: Роботы-сиделки и бесконечные миры
[[JUMP:25:51]]

Вместо погони за абстрактным AGI, Юлиан Тогелиус предлагает сфокусироваться на постепенном расширении возможностей ИИ. Его личный «Святой Грааль» — это система, способная играть в любую игру на App Store или в библиотеке Steam на приличном уровне [27:14].

Другим важным направлением Юлиан считает создание самогенерирующихся сред. Представьте версию Grand Theft Auto, где вы идете в любом направлении, и система на лету создает новые города, людей с уникальными отношениями и нарративы, подстраиваясь под интересы игрока [28:11].

Кен Стэнли отмечает важность разделения «механического» интеллекта (робот-сиделка, который должен мыть пациента и поливать цветы) и «креативного» (создание миров) [29:30]. Юлиан, выросший в семье художников, подчеркивает, что история искусства всегда была историей развития технологий — от новых пигментов до цифровых методов моделирования [31:05].

## 📉 Тупик глубокого обучения с подкреплением (RL)
[[JUMP:33:17]]

Одной из центральных тем обсуждения стало «переобучение» (overfitting) современных нейросетей. Юлиан Тогелиус указывает на то, что агенты глубокого обучения с подкреплением (Deep RL) часто просто запоминают последовательность действий, а не учатся играть [35:45].

Основные проблемы RL по версии Юлиана:

*   **Хрупкость:** Стоит изменить разрешение экрана, угол обзора или частоту кадров в игре Atari, и поведение агента становится случайным — он «коллапсирует» [36:34].
*   **Путь наименьшего сопротивления:** Градиентный спуск (Gradient Descent) по своей природе жаден. Он всегда выбирает простейшее решение для минимизации ошибки, что ведет к жесткому «подгону» под данные [40:16].
*   **Shortcut Rule:** Модели получают ровно то, что оптимизируют, ценой потери гибкости во всем остальном [40:30].

В качестве примера приводится **NetHack Challenge**. В этой игре окружение меняется каждый раз, что делает невозможным простое запоминание карты. Юлиан отмечает, что символьные методы (классический ИИ с планированием) справились с этим лучше, чем нейросети [42:13].

## 🚀 Quality Diversity: Будущее за многообразием
[[JUMP:44:14]]

Юлиан Тогелиус делает смелое заявление: парадигма «Качественного разнообразия» (Quality Diversity, QD) со временем «поглотит» весь ИИ [44:27].

Суть подхода QD:

1.  **Отказ от единственного решения:** Вместо поиска одной оптимальной стратегии система ищет множество эффективных, но принципиально разных решений [45:32].
2.  **Эволюционный подход:** В отличие от градиентного спуска, который Юлиан называет «эмпиризмом» (данные толкают модель), эволюционные алгоритмы ближе к «рационализму» (случайная генерация гипотез и их последующее тестирование) [52:19].
3.  **MAP-Elites:** Это алгоритм, который создает «карту» различных ниш и заполняет их лучшими представителями [47:31].

Юлиан подчеркивает, что даже в бизнесе самые эффективные методы машинного обучения (например, **XGBoost**) основаны на ансамблях — наборе разных моделей, а не на одном «гениальном» агенте [1:09:03].

## 🧬 Интеллект на уровне популяции
[[JUMP:56:31]]

Кен Стэнли поднимает вопрос о «стреле сложности» в эволюции. Он предполагает, что целью поиска может быть не оптимизация производительности, а накопление информации о возможностях физического мира [57:15].

Юлиан Тогелиус соглашается, что интеллект стоит рассматривать не на уровне индивида, а на уровне экосистемы.

*   Мы кажемся умными только потому, что живем в сложной цивилизации, которая создала условия для нашего развития [59:03].
*   В эволюции существует специализация: каждый вид создает нишу для другого [1:04:12].
*   Современный ИИ страдает от «снобизма генерализации» — попытки создать одного агента, умеющего всё, в то время как сила природы заключается в гиперспециализированном разнообразии [1:07:58].

Завершая беседу, Юлиан Тогелиус выражает надежду на создание алгоритмов будущего, которые будут работать на разных шкалах: от малых градиентных шагов до крупных «мутаций», позволяющих системе выходить за рамки текущего опыта [48:46].