Исследователи из Калифорнийского университета в Беркли и других ведущих институтов задались вопросом: почему люди осваивают видеоигры за считаные минуты, в то время как алгоритмам глубокого обучения (RL) требуются миллионы попыток? Ответ кроется в «байесовских априорных знаниях» (priors) — багаже опыта о физике мира и значении объектов, который мы приносим с собой в виртуальное пространство.
Янник Килчер, автор популярного канала об ИИ, разбирает работу «Investigating Human Priors for Playing Video Games» и наглядно демонстрирует, во что превращается геймплей, если лишить человека его интуитивных ожиданий.
🕹️ Что такое априорные знания в гейминге? 0:00
Большинство видеоигр создано людьми для людей, а значит, они опираются на наш повседневный опыт. Мы знаем, что огонь обжигает, лестницы нужны для подъема, а пропасть — это смерть. Эти знания позволяют нам играть эффективно с первой секунды. В своей работе авторы (Ратчет Дуби, Пулкит Агравал, Дипак Патек, Том Гриффитс и Алексей Эфрос) решили провести «абляцию» — систематическое удаление этих факторов, чтобы измерить их вклад в успех игрока .
Для экспериментов была разработана игра в стиле классической Montezuma's Revenge. В оригинале всё просто: нужно перепрыгивать через враждебных существ и шипы, карабкаться по лестницам, забрать ключ и открыть дверь . Однако, когда исследователи начинают менять правила восприятия, человеческий интеллект сталкивается с серьезными препятствиями.
🧩 Уровни деградации: от замены текстур до нарушения физики 1:03
Янник Килчер демонстрирует несколько режимов игры, каждый из которых отключает определенный тип «человеческих настроек»:
- Маскировка семантики (Masked Semantics): визуальные объекты заменяются на абстрактные геометрические фигуры . Мы больше не видим «врага» или «ключ», только цветные блоки. Тем не менее, по мнению Килчера, человек всё еще может быстро адаптироваться, используя метод проб и ошибок .
- Обратная семантика (Reverse Semantics): объекты меняются ролями. Подняв аппетитную на вид монетку или рожок мороженого, игрок умирает, а опасный огонь может оказаться полезным ресурсом .
- Маскировка функциональных возможностей (Masked Affordances): это более сложный уровень, где окружение перерисовывается так, что невозможно понять, на что можно наступить, а что является фоном. По словам ведущего, здесь сложность возрастает значительно, так как игрок теряет понимание структуры пространства .
- Маскировка визуального сходства (Masked Visual Similarity): в играх мы привыкли, что одинаково выглядящие объекты ведут себя одинаково. Здесь этот принцип нарушен: одна зеленая плитка может быть платформой, а другая такой же формы и цвета — пустотой .
Килчер отмечает, что самым тяжелым испытанием становится изменение логики взаимодействия с объектами. Например, лестницы могут перестать работать привычным образом, требуя от игрока двигаться влево-вправо вместо нажатия «вверх» . Это нарушает глубоко укоренившиеся моторные навыки.
🧠 Гвинея-пиг для ИИ: почему алгоритмы побеждают в хаосе? 7:27
Главный вывод исследования, как подчеркивает Килчер, заключается в сравнении человека и алгоритмов обучения с подкреплением (Reinforcement Learning). То, что для человека является «адом» и «худшей игрой в мире» , для RL-агента — стандартная рабочая среда.
- Инвариантность алгоритмов: по наблюдениям авторов статьи, RL-агентам всё равно, как выглядит объект — как розовый монстр или как серый квадрат. Им не мешает «обратная семантика», потому что у них нет предварительных ожиданий о том, что мороженое — это хорошо .
- Проблема визуального сходства: единственное, что реально помогает RL-алгоритмам (использующим сверточные нейросети), — это визуальное сходство. Если все враги выглядят одинаково, агенту проще обобщить опыт .
- Слепые пятна человека: Янник приводит пример уровня со «скрытыми наградами» . Человек часто даже не пытается прыгнуть в пустое черное пространство, считая его фоном (приор пустоты). RL-агент же исследует абсолютно всё и находит скрытые бонусы, которые человек просто игнорирует из-за своей предвзятости .
📊 Результаты и перспективы ИИ 8:44
Данные исследования показывают, что «маскировка идентификации объектов» наносит самый сильный удар по человеческой продуктивности, увеличивая время прохождения и количество смертей в десятки раз .
Янник Килчер заключает, что перед разработчиками ИИ стоят два пути:
- Вшивать человеческие априорные знания в алгоритмы, чтобы они учились так же быстро, как мы .
- Обучать алгоритмы этим знаниям заранее на огромных массивах данных, прежде чем выпускать их в конкретную среду .
Исследование доказывает, что наша невероятная скорость обучения — это не только заслуга «чистого интеллекта», но и результат эффективного использования багажа знаний о реальном мире, который мы подсознательно переносим в любую новую задачу.