Игры из воображения нейросети: как ИИ-движок Genie создает интерактивные среды

Технологии искусственного интеллекта вплотную приблизились к созданию динамических интерактивных сред на лету. В новом выпуске подкаста Machine Learning Street Talk ведущий Тим Скарфе (Tim Scarfe) обсудил с исследовательницей Эшли (Ashley) революционную модель Genie, способную выступать в роли игрового движка, генерируемого силами нейросети. В центре внимания — принципы обучения ИИ на основе терабайтов видеороликов, механизмы извлечения скрытых действий и перспективы применения генеративных моделей в робототехнике.

🎮 ИИ как игровой движок: концепция Genie 0:00

Главная идея проекта Genie заключается в том, чтобы научить искусственный интеллект создавать генеративные интерактивные среды исключительно на основе видеоматериалов. На практике это означает, что пользователь может взять одно статичное изображение и начать взаимодействовать с ним так, будто это полноценная игра.

Для реализации этой концепции разработчики используют последовательности видеокадров, которые пропускаются через модель векторного квантования (VQ model). Это позволяет дискретизировать видео на отдельные токены, предсказанием которых затем занимается основная нейросеть. Обучение происходит на огромном и разнообразном наборе данных, содержащем множество типов сред и динамических взаимодействий.

🛠️ Внутри архитектуры: три кита Genie 2:05

Архитектура Genie базируется на трех фундаментальных компонентах, о которых подробно рассказала Эшли:

Модель скрытых действий (Latent Action Model, LAM) — компонент, который вычисляет действия агента непосредственно по необработанным пикселям, без явной разметки в обучающем видео.
Модель динамики (Dynamics Model) — модуль, принимающий эти скрытые действия и предсказывающий последующие кадры.
Видео-токенизатор (Video Tokenizer) — система, преобразующая кадры в дискретные токены для их последующего прогнозирования.

Видео-токенизатор обучается в первую очередь с использованием архитектуры VQ-VAE, создающей специальный словарь (codebook). На вход подаются кадры относительно невысокого разрешения — всего 90 на 160 пикселей. Модель разбивает эти изображения на патчи и переводит их в токенизированный вид.

Оной из ключевых особенностей Genie является ограничение пространства скрытых действий всего восемью вариантами. По словам Эшли, это было сделано по двум основным причинам:

Удобство тестирования: разработчики хотели иметь возможность самостоятельно запускать модель и играть в созданные ею миры, что было бы крайне затруднительно при слишком большом количестве доступных действий.
Сжатие информации: компактный словарь действий заставляет модель кодировать только самые важные изменения, происходящие между сценами.

Несмотря на отсутствие явных указаний на действия в обучающих видео, модель научилась выводить логичные и последовательные траектории поведения, что, как признается Эшли, удивило даже многих участников команды разработчиков. По ее мнению, ключевым фактором успеха стало обучение на масштабном и разнообразном датасете. Благодаря этому ИИ выстроил универсальное пространство действий, помогающее ему точнее предсказывать будущие кадры в самых разных виртуальных средах.

🎨 Управление от наброска до текста 5:42

Обученная архитектура фактически способна имитировать полноценный игровой движок, основываясь исключительно на «воображении» нейросети и командах пользователя. При этом пользователь не ограничен готовыми изображениями: отправной точкой для игры может стать даже простой сделанный от руки набросок.

Кроме того, система поддерживает текстовые описания. Как объяснила Эшли, напрямую текст в Genie не вводится. Вместо этого используется готовое коммерческое решение (off-the-shelf text-to-image model), которое генерирует базовую картинку по описанию, а та уже передается на вход видеодекодеру Genie. Тим Скарфе отметил, что это создает удивительную возможность: человек может нарисовать платформер, загрузить его в систему, подключить геймпад и играть в собственный рисунок в реальном времени. По словам Эшли, даже при не самых выдающихся навыках рисования модель успешно справляется с управлением объектами на эскизе.

Что касается способности к генерализации вне обучающей выборки (out-of-distribution), разработчики старались подбирать промпты, напоминающие структуру данных из обучения. Тем не менее, эскизы и рисунки работают стабильно. По мнению исследовательницы, если изображение имеет структуру, подразумевающую возможность контроля, Genie в большинстве случаев успешно адаптируется.

Для оценки качества работы Genie авторы использовали две основные метрики:

FVD (Fréchet Video Distance) — стандартный метод оценки качества видео, измеряющий, насколько сгенерированные кадры соответствуют распределению исходных обучающих данных.
SNR diff — специализированная метрика, разработанная командой для оценки управляемости.

Суть SNR diff заключается в сравнении результатов генерации при использовании истинных скрытых действий (ground truth) и случайных действий. Разработчикам было важно убедиться, что именно определенные скрытые действия приводят к правильным изменениям на экране, в то время как случайные команды не позволяют предсказать верный следующий кадр.

📊 Масштабирование и пространственно-временные трансформеры 10:06

В процессе обучения Genie у нее проявились так называемые эмерджентные (внезапно возникшие) способности. К ним относятся понимание трехмерного пространства, деформация объектов и эффект параллакса.

Эшли подчеркнула, что модель самостоятельно освоила эффект параллакса: при генерации следующих кадров удаленные объекты движутся медленнее, чем близкие, что симулирует глубину сцены в точности так, как это происходит в реальном мире и в играх.

Суммарный объем Genie составил 11 миллиардов параметров. Исследователи провели детальный анализ масштабирования, изучая поведение модели при увеличении ее размера и размера батча. Как утверждает Эшли, с ростом масштаба до 11 миллиардов параметров качество (fidelity) и управляемость (controllability) улучшались плавно и предсказуемо.

Для обучения использовался колоссальный массив данных:

Исходный объем видеоматериалов составлял около 300 000 часов.
После ручной фильтрации и разметки силами команды датасет был сокращен до 30 000 часов качественного контента.
Обучающие фрагменты представляли собой 10-секундные ролики с частотой 10 кадров в секунду и низким разрешением.

С технической точки зрения в Genie применяется пространственно-временной трансформер (Spatio-Temporal Transformer, STX). В отличие от классического Vision Transformer (ViT), который работает только с патчами одного изображения, STX должен учитывать временную компоненту движения. Чтобы избежать квадратичного роста вычислительной сложности при расчете внимания (attention) между всеми кадрами, разработчики заставили модель обращать внимание на один токен сквозь время, что позволило добиться линейного масштабирования. Использование каузальной маски (causal mask) позволило эффективно фиксировать динамику временных изменений. По мнению Тима Скарфе, такое взаимодействие ИИ с пользователем представляет собой гораздо более глубокую форму геймификации, чем привычные текстовые интерфейсы больших языковых моделей.

🤖 Робототехника: новый фронтир для скрытых действий 14:14

Хотя генерация игр выглядит впечатляюще, Эшли и Тим сошлись во мнении, что следующим важнейшим этапом применения технологии станет робототехника. Главная сложность в этой сфере — отсутствие масштабных размеченных данных, содержащих конкретные действия роботов. В рамках исследования авторы Genie обучили политику поведенческого клонирования (behavioral cloning policy) на основе скрытых действий, извлеченных моделью. По словам Эшли, агент обучался имитировать движения по новым, не виденным ранее видеозаписям, причем без использования функции вознаграждения (rewards).

Основная трудность заключалась в привязке скрытых действий модели к реальным физическим командам робота. Обучать агента сопоставлять их «на лету» оказалось тяжело, поэтому разработчики использовали небольшой объем размеченных экспертами данных для создания карты соответствий, что в итоге показало отличные результаты.

Отвечая на вопрос о потенциальном увеличении пространства действий для робототехники, Эшли отметила следующие аспекты:

С ростом количества скрытых действий точность генерации кадров повышается, так как модель лучше кодирует нюансы изменений среды.
Однако сопоставление гигантского пространства скрытых действий с реальным физическим миром становится крайне сложной задачей, особенно с учетом того, что движения роботов непрерывны (continuous), а не дискретны.

По мнению исследовательницы, для создания полноценных базовых моделей (foundation models) в робототехнике необходимо комбинировать данные из множества различных источников, включая опыт таких команд, как стартап 1X и лаборатория Челси Финн (Chelsea Finn). При этом исключительно интернет-видео недостаточно: роботам требуются сенсорные данные, включая тактильные ощущения (haptics).

Для оптимизации декодера Genie использовалась архитектура MaskGIT. Ее преимущество перед авторегрессионными моделями заключается в возможности параллельной генерации токенов за счет маскирования и постепенного раскрытия наиболее уверенных предсказаний, что дает существенный выигрыш в скорости. На текущий момент скорость генерации составляет около одного кадра в секунду. По мнению Эшли, для ускорения работы перспективно использовать методы дистилляции моделей в более быстрые архитектуры, а также оптимизацию вычислений с помощью формата bfloat16.

🚀 Будущее генеративного видео и карьерные сдвиги 19:48

Эшли рассказала, что ее увлечение генерацией сред выросло из академического бэкграунда: ее докторская диссертация (PhD) была посвящена обучению с подкреплением. Со временем ее стало утомлять создание искусственных функций вознаграждения, и она переключилась на задачу обучения агентов по видео из интернета.

Недавно в карьере исследовательницы произошли серьезные изменения: она покинула Google DeepMind и присоединилась к стартапу Runway. Переход совпал с неделей релиза новой флагманской модели Runway Gen-3. Тим Скарфе поделился восторженным отзывом о Gen-3, рассказав, как использовал ее для генерации сложного визуального образа (типирующего на ноутбуке Шогота) с первой попытки. По словам Эшли, темпы развития генерации видео поражают: с момента выхода модели Sora от OpenAI в феврале сфера совершила огромный скачок.

Говоря о будущем индустрии, Эшли высказала мнение, что бесконечное масштабирование моделей за счет роста данных и параметров — не единственный путь. По ее прогнозу, разработчики будут все чаще улучшать уже существующие нейросети с помощью дистилляции, тонкой настройки и методов наведения без классификатора (classifier-free guidance), что позволит сделать технологии генерации видео в реальном времени гораздо более доступными и эффективными.