OpenAI обучила нейросеть крафтить алмазную кирку по видеороликам

Yannic Kilcher 41,1 тыс. 32 мин 5 мин 26.06.2022
Главное

Команда исследователей из OpenAI представила систему Video PreTraining (VPT), которая впервые в истории искусственного интеллекта научилась успешно создавать алмазную кирку в игре Minecraft без использования захардкоженных команд. Метод основан на обучении нейросети на огромном массиве неразмеченных видеороликов с YouTube с помощью предварительно обученной модели инверсной динамики. Известный ИИ-блогер Янник Килчер (Yannic Kilcher) подробно разбирает архитектуру этой системы, её экономическую целесообразность и вычислительную сложность.

⛏️ Сверхсложная задача для искусственного интеллекта 0:00

Игра Minecraft уже много лет служит полигоном для тестирования алгоритмов обучения с подкреплением (Reinforcement Learning), однако продвижение в ней считается классической сверхсложной задачей. Агент оказывается в открытом мире со случайной процедурной генерацией ландшафта, где каждый новый старт уникален. Взаимодействие происходит не через упрощенные абстрактные команды, а напрямую через симуляцию клавиатуры и мыши. Для достижения финальной цели игроку необходимо пройти через сложнейшую цепочку последовательных действий:

Янник Килчер отмечает, что эта задача трудна даже для людей. Участники его сообщества в Discord пытались пройти этот путь в рамках 10–15 минутных сессий, и автору лишь однажды удалось добыть два алмаза, тогда как для кирки требуется три. Попытки обучить модель с нуля случайными действиями в среде обучения с подкреплением не приносят никаких результатов.

💰 Экономика данных: куда инвестировать бюджет? 3:46

Главный вопрос, который ставит исследование VPT, заключается в эффективном распределении бюджета при создании ИИ-агентов. При наличии определенной суммы денег у разработчиков есть несколько путей ее инвестирования:

  1. Сбор размеченных данных через подрядчиков (contractors), когда люди играют в игру, а система записывает их действия. Это позволяет использовать клонирование поведения (behavior cloning), но стоит очень дорого.
  2. Сбор неразмеченных данных, например, скачивание терабайтов видео с YouTube. Это дает огромный объем информации практически бесплатно, но видео не содержат меток о нажимаемых клавишах.
  3. Инвестиции в саму разметку или в алгоритмы, которые смогут связать видеоряд с действиями.

Разработчики из OpenAI нашли рецепт, который существенно снижает общую стоимость создания способного агента и может быть применен в любой аналогичной области.

🔄 Метод инверсной динамики: взгляд из будущего 6:14

В основе подхода VPT лежит простое наблюдение: предсказать следующее действие игрока, глядя только на прошлые кадры (как это делают классические каузальные авторегрессионные модели), чрезвычайно сложно. Однако задача резко упрощается, если у модели есть доступ как к прошлым, так и к будущим кадрам видео. Обладая информацией о том, что произойдет дальше, алгоритм может легко восстановить пропущенное действие между кадрами в ретвоспективе.

Янник Килчер сравнивает этот подход с технологией разметки Tesla, о которой ранее рассказывал Андрей Карпати. Если автомобиль на видео временно скрывается за препятствием, определить его траекторию вслепую трудно, но, увидев его последующее появление, восстановить историю движения задним числом не составляет труда.

Процесс разметки данных в VPT состоял из следующих шагов:

В результате OpenAI получила гигантский массив данных для стандартного клонирования поведения, обойдясь минимальными затратами на ручную разметку.

🧠 Архитектура: от 3D-свёрток к трансформерам 15:37

Архитектура моделей IDM (разметчик) и базовой каузальной модели (агент) практически идентична, за исключением того, что агент лишен возможности заглядывать в будущее. В отличие от текстовых моделей вроде GPT-3, которые работают в рамках одного домена (текст на входе и текст на выходе), VPT принимает на вход видеопоследовательность, а на выходе генерирует действия.

Технический стек обработки видео включает в себя несколько уровней:

📈 Результаты и магия тонкой настройки 19:34

Обученная на 70 000 часах псевдоразмеченных данных базовая модель изначально не имеет конкретной цели. По мнению Янника Килчера, OpenAI избыточно форсит трендовое слово «фундаментальная модель» (foundation model) в тексте работы, шутя, что Стэнфорд, возможно, приплатил им за это. Если запустить этого базового агента в мир, он демонстрирует хаотичное, но уверенное поведение игрока: собирает блоки, рубит деревья, крафтит доски.

Однако настоящая сила подхода проявляется при тонкой настройке (fine-tuning):

🎮 Усиление через подкрепление и колоссальные затраты 25:49

Финальным этапом стало применение обучения с подкреплением (RL) поверх модели, дообученной на роликах «early game». Исследователи применили метод формирования вознаграждения (reward shaping), выдавая агенту бонусы за каждый последующий предмет в технологической цепочке.

Результаты экспериментов наглядно демонстрируют превосходство VPT:

Янник Килчер подчеркивает, что 2,5% — это огромный успех, учитывая, что оценка проводилась на случайных сидах (миры генерировались заново при каждой попытке). При этом он признает, что reward shaping был агрессивным, но напоминает: ранее в Minecraft другие команды использовали еще более жесткие ограничения вознаграждений, но не добивались ничего.

Главный минус проекта — его колоссальная вычислительная стоимость. Обучение моделей потребовало 9 дней непрерывной работы кластера из 720 графических процессоров NVIDIA V100. К счастью для сообщества, OpenAI выложила модель в открытый доступ для участников соревнования MineRL, избавив независимых разработчиков от необходимости тратить миллионы долларов на предобучение.

💬 Цитаты

«Попытки обучить модель с нуля случайными действиями в среде обучения с подкреплением не приносят никаких результатов»

Янник Килчер 03:33

«Обучение моделей потребовало 9 дней непрерывной работы кластера из 720 графических процессоров NVIDIA V100»

Янник Килчер 31:56
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Клонирование поведения (Behavior Cloning)
Метод обучения ИИ, при котором модель пытается в точности повторить действия эксперта-человека.
Модель инверсной динамики (IDM)
Нейросеть, предсказывающая, какое действие было совершено между двумя последовательными кадрами видео.
Формирование вознаграждения (Reward Shaping)
Метод в обучении с подкреплением, добавляющий промежуточные награды для облегчения достижения сложной финальной цели.
Каузальная модель
Модель, прогнозирующая будущее состояние исключительно на основе имеющихся данных из прошлого.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект OpenAI Video PreTraining Minecraft Янник Кильхер