# Как человеческая интуиция мешает и помогает нам в видеоиграх

Источник: https://www.youtube.com/watch?v=Nfry2b4RFI4
Канал: Yannic Kilcher
Опубликовано: 20.05.2020

---

Исследователи из Калифорнийского университета в Беркли и других ведущих институтов задались вопросом: почему люди осваивают видеоигры за считаные минуты, в то время как алгоритмам глубокого обучения (RL) требуются миллионы попыток? Ответ кроется в «байесовских априорных знаниях» (priors) — багаже опыта о физике мира и значении объектов, который мы приносим с собой в виртуальное пространство.

Янник Килчер, автор популярного канала об ИИ, разбирает работу «Investigating Human Priors for Playing Video Games» и наглядно демонстрирует, во что превращается геймплей, если лишить человека его интуитивных ожиданий.

## 🕹️ Что такое априорные знания в гейминге?
[[JUMP:00:00]]

Большинство видеоигр создано людьми для людей, а значит, они опираются на наш повседневный опыт. Мы знаем, что огонь обжигает, лестницы нужны для подъема, а пропасть — это смерть. Эти знания позволяют нам играть эффективно с первой секунды. В своей работе авторы (Ратчет Дуби, Пулкит Агравал, Дипак Патек, Том Гриффитс и Алексей Эфрос) решили провести «абляцию» — систематическое удаление этих факторов, чтобы измерить их вклад в успех игрока [00:13].

Для экспериментов была разработана игра в стиле классической *Montezuma's Revenge*. В оригинале всё просто: нужно перепрыгивать через враждебных существ и шипы, карабкаться по лестницам, забрать ключ и открыть дверь [00:51]. Однако, когда исследователи начинают менять правила восприятия, человеческий интеллект сталкивается с серьезными препятствиями.

## 🧩 Уровни деградации: от замены текстур до нарушения физики
[[JUMP:01:03]]

Янник Килчер демонстрирует несколько режимов игры, каждый из которых отключает определенный тип «человеческих настроек»:

*   **Маскировка семантики (Masked Semantics):** визуальные объекты заменяются на абстрактные геометрические фигуры [01:03]. Мы больше не видим «врага» или «ключ», только цветные блоки. Тем не менее, по мнению Килчера, человек всё еще может быстро адаптироваться, используя метод проб и ошибок [01:28].
*   **Обратная семантика (Reverse Semantics):** объекты меняются ролями. Подняв аппетитную на вид монетку или рожок мороженого, игрок умирает, а опасный огонь может оказаться полезным ресурсом [01:41].
*   **Маскировка функциональных возможностей (Masked Affordances):** это более сложный уровень, где окружение перерисовывается так, что невозможно понять, на что можно наступить, а что является фоном. По словам ведущего, здесь сложность возрастает значительно, так как игрок теряет понимание структуры пространства [02:59].
*   **Маскировка визуального сходства (Masked Visual Similarity):** в играх мы привыкли, что одинаково выглядящие объекты ведут себя одинаково. Здесь этот принцип нарушен: одна зеленая плитка может быть платформой, а другая такой же формы и цвета — пустотой [03:42].

Килчер отмечает, что самым тяжелым испытанием становится изменение логики взаимодействия с объектами. Например, лестницы могут перестать работать привычным образом, требуя от игрока двигаться влево-вправо вместо нажатия «вверх» [05:16]. Это нарушает глубоко укоренившиеся моторные навыки.

## 🧠 Гвинея-пиг для ИИ: почему алгоритмы побеждают в хаосе?
[[JUMP:07:27]]

Главный вывод исследования, как подчеркивает Килчер, заключается в сравнении человека и алгоритмов обучения с подкреплением (Reinforcement Learning). То, что для человека является «адом» и «худшей игрой в мире» [09:24], для RL-агента — стандартная рабочая среда.

*   **Инвариантность алгоритмов:** по наблюдениям авторов статьи, RL-агентам всё равно, как выглядит объект — как розовый монстр или как серый квадрат. Им не мешает «обратная семантика», потому что у них нет предварительных ожиданий о том, что мороженое — это хорошо [08:57].
*   **Проблема визуального сходства:** единственное, что реально помогает RL-алгоритмам (использующим сверточные нейросети), — это визуальное сходство. Если все враги выглядят одинаково, агенту проще обобщить опыт [09:49].
*   **Слепые пятна человека:** Янник приводит пример уровня со «скрытыми наградами» [10:15]. Человек часто даже не пытается прыгнуть в пустое черное пространство, считая его фоном (приор пустоты). RL-агент же исследует абсолютно всё и находит скрытые бонусы, которые человек просто игнорирует из-за своей предвзятости [10:28].

## 📊 Результаты и перспективы ИИ
[[JUMP:08:44]]

Данные исследования показывают, что «маскировка идентификации объектов» наносит самый сильный удар по человеческой продуктивности, увеличивая время прохождения и количество смертей в десятки раз [08:44].

Янник Килчер заключает, что перед разработчиками ИИ стоят два пути:

1.  **Вшивать человеческие априорные знания в алгоритмы**, чтобы они учились так же быстро, как мы [08:18].
2.  **Обучать алгоритмы этим знаниям заранее** на огромных массивах данных, прежде чем выпускать их в конкретную среду [08:30].

Исследование доказывает, что наша невероятная скорость обучения — это не только заслуга «чистого интеллекта», но и результат эффективного использования багажа знаний о реальном мире, который мы подсознательно переносим в любую новую задачу.