Игры из воображения нейросети: как ИИ-движок Genie создает интерактивные среды

Machine Learning Street Talk 9,7 тыс. 24 мин 7 мин 13.09.2024
Главное

Технологии искусственного интеллекта вплотную приблизились к созданию динамических интерактивных сред на лету. В новом выпуске подкаста Machine Learning Street Talk ведущий Тим Скарфе (Tim Scarfe) обсудил с исследовательницей Эшли (Ashley) революционную модель Genie, способную выступать в роли игрового движка, генерируемого силами нейросети. В центре внимания — принципы обучения ИИ на основе терабайтов видеороликов, механизмы извлечения скрытых действий и перспективы применения генеративных моделей в робототехнике.

🎮 ИИ как игровой движок: концепция Genie 0:00

Главная идея проекта Genie заключается в том, чтобы научить искусственный интеллект создавать генеративные интерактивные среды исключительно на основе видеоматериалов. На практике это означает, что пользователь может взять одно статичное изображение и начать взаимодействовать с ним так, будто это полноценная игра.

Для реализации этой концепции разработчики используют последовательности видеокадров, которые пропускаются через модель векторного квантования (VQ model). Это позволяет дискретизировать видео на отдельные токены, предсказанием которых затем занимается основная нейросеть. Обучение происходит на огромном и разнообразном наборе данных, содержащем множество типов сред и динамических взаимодействий.

🛠️ Внутри архитектуры: три кита Genie 2:05

Архитектура Genie базируется на трех фундаментальных компонентах, о которых подробно рассказала Эшли:

Видео-токенизатор обучается в первую очередь с использованием архитектуры VQ-VAE, создающей специальный словарь (codebook). На вход подаются кадры относительно невысокого разрешения — всего 90 на 160 пикселей. Модель разбивает эти изображения на патчи и переводит их в токенизированный вид.

Оной из ключевых особенностей Genie является ограничение пространства скрытых действий всего восемью вариантами. По словам Эшли, это было сделано по двум основным причинам:

  1. Удобство тестирования: разработчики хотели иметь возможность самостоятельно запускать модель и играть в созданные ею миры, что было бы крайне затруднительно при слишком большом количестве доступных действий.
  2. Сжатие информации: компактный словарь действий заставляет модель кодировать только самые важные изменения, происходящие между сценами.

Несмотря на отсутствие явных указаний на действия в обучающих видео, модель научилась выводить логичные и последовательные траектории поведения, что, как признается Эшли, удивило даже многих участников команды разработчиков. По ее мнению, ключевым фактором успеха стало обучение на масштабном и разнообразном датасете. Благодаря этому ИИ выстроил универсальное пространство действий, помогающее ему точнее предсказывать будущие кадры в самых разных виртуальных средах.

🎨 Управление от наброска до текста 5:42

Обученная архитектура фактически способна имитировать полноценный игровой движок, основываясь исключительно на «воображении» нейросети и командах пользователя. При этом пользователь не ограничен готовыми изображениями: отправной точкой для игры может стать даже простой сделанный от руки набросок.

Кроме того, система поддерживает текстовые описания. Как объяснила Эшли, напрямую текст в Genie не вводится. Вместо этого используется готовое коммерческое решение (off-the-shelf text-to-image model), которое генерирует базовую картинку по описанию, а та уже передается на вход видеодекодеру Genie. Тим Скарфе отметил, что это создает удивительную возможность: человек может нарисовать платформер, загрузить его в систему, подключить геймпад и играть в собственный рисунок в реальном времени. По словам Эшли, даже при не самых выдающихся навыках рисования модель успешно справляется с управлением объектами на эскизе.

Что касается способности к генерализации вне обучающей выборки (out-of-distribution), разработчики старались подбирать промпты, напоминающие структуру данных из обучения. Тем не менее, эскизы и рисунки работают стабильно. По мнению исследовательницы, если изображение имеет структуру, подразумевающую возможность контроля, Genie в большинстве случаев успешно адаптируется.

Для оценки качества работы Genie авторы использовали две основные метрики:

Суть SNR diff заключается в сравнении результатов генерации при использовании истинных скрытых действий (ground truth) и случайных действий. Разработчикам было важно убедиться, что именно определенные скрытые действия приводят к правильным изменениям на экране, в то время как случайные команды не позволяют предсказать верный следующий кадр.

📊 Масштабирование и пространственно-временные трансформеры 10:06

В процессе обучения Genie у нее проявились так называемые эмерджентные (внезапно возникшие) способности. К ним относятся понимание трехмерного пространства, деформация объектов и эффект параллакса.

Эшли подчеркнула, что модель самостоятельно освоила эффект параллакса: при генерации следующих кадров удаленные объекты движутся медленнее, чем близкие, что симулирует глубину сцены в точности так, как это происходит в реальном мире и в играх.

Суммарный объем Genie составил 11 миллиардов параметров. Исследователи провели детальный анализ масштабирования, изучая поведение модели при увеличении ее размера и размера батча. Как утверждает Эшли, с ростом масштаба до 11 миллиардов параметров качество (fidelity) и управляемость (controllability) улучшались плавно и предсказуемо.

Для обучения использовался колоссальный массив данных:

С технической точки зрения в Genie применяется пространственно-временной трансформер (Spatio-Temporal Transformer, STX). В отличие от классического Vision Transformer (ViT), который работает только с патчами одного изображения, STX должен учитывать временную компоненту движения. Чтобы избежать квадратичного роста вычислительной сложности при расчете внимания (attention) между всеми кадрами, разработчики заставили модель обращать внимание на один токен сквозь время, что позволило добиться линейного масштабирования. Использование каузальной маски (causal mask) позволило эффективно фиксировать динамику временных изменений. По мнению Тима Скарфе, такое взаимодействие ИИ с пользователем представляет собой гораздо более глубокую форму геймификации, чем привычные текстовые интерфейсы больших языковых моделей.

🤖 Робототехника: новый фронтир для скрытых действий 14:14

Хотя генерация игр выглядит впечатляюще, Эшли и Тим сошлись во мнении, что следующим важнейшим этапом применения технологии станет робототехника. Главная сложность в этой сфере — отсутствие масштабных размеченных данных, содержащих конкретные действия роботов. В рамках исследования авторы Genie обучили политику поведенческого клонирования (behavioral cloning policy) на основе скрытых действий, извлеченных моделью. По словам Эшли, агент обучался имитировать движения по новым, не виденным ранее видеозаписям, причем без использования функции вознаграждения (rewards).

Основная трудность заключалась в привязке скрытых действий модели к реальным физическим командам робота. Обучать агента сопоставлять их «на лету» оказалось тяжело, поэтому разработчики использовали небольшой объем размеченных экспертами данных для создания карты соответствий, что в итоге показало отличные результаты.

Отвечая на вопрос о потенциальном увеличении пространства действий для робототехники, Эшли отметила следующие аспекты:

По мнению исследовательницы, для создания полноценных базовых моделей (foundation models) в робототехнике необходимо комбинировать данные из множества различных источников, включая опыт таких команд, как стартап 1X и лаборатория Челси Финн (Chelsea Finn). При этом исключительно интернет-видео недостаточно: роботам требуются сенсорные данные, включая тактильные ощущения (haptics).

Для оптимизации декодера Genie использовалась архитектура MaskGIT. Ее преимущество перед авторегрессионными моделями заключается в возможности параллельной генерации токенов за счет маскирования и постепенного раскрытия наиболее уверенных предсказаний, что дает существенный выигрыш в скорости. На текущий момент скорость генерации составляет около одного кадра в секунду. По мнению Эшли, для ускорения работы перспективно использовать методы дистилляции моделей в более быстрые архитектуры, а также оптимизацию вычислений с помощью формата bfloat16.

🚀 Будущее генеративного видео и карьерные сдвиги 19:48

Эшли рассказала, что ее увлечение генерацией сред выросло из академического бэкграунда: ее докторская диссертация (PhD) была посвящена обучению с подкреплением. Со временем ее стало утомлять создание искусственных функций вознаграждения, и она переключилась на задачу обучения агентов по видео из интернета.

Недавно в карьере исследовательницы произошли серьезные изменения: она покинула Google DeepMind и присоединилась к стартапу Runway. Переход совпал с неделей релиза новой флагманской модели Runway Gen-3. Тим Скарфе поделился восторженным отзывом о Gen-3, рассказав, как использовал ее для генерации сложного визуального образа (типирующего на ноутбуке Шогота) с первой попытки. По словам Эшли, темпы развития генерации видео поражают: с момента выхода модели Sora от OpenAI в феврале сфера совершила огромный скачок.

Говоря о будущем индустрии, Эшли высказала мнение, что бесконечное масштабирование моделей за счет роста данных и параметров — не единственный путь. По ее прогнозу, разработчики будут все чаще улучшать уже существующие нейросети с помощью дистилляции, тонкой настройки и методов наведения без классификатора (classifier-free guidance), что позволит сделать технологии генерации видео в реальном времени гораздо более доступными и эффективными.

💬 Цитаты

«Главная идея проекта Genie заключается в том, чтобы научить искусственный интеллект создавать генеративные интерактивные среды исключительно на основе видеоматериалов.»

«Мы уменьшили пространство скрытых действий до восьми, чтобы иметь возможность самостоятельно тестировать модель и играть в созданные миры.»

«Исключительно интернет-видео недостаточно: роботам требуются сенсорные данные, включая тактильные ощущения.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
VQ-VAE
Векторно-квантованный автокодировщик, используемый для сжатия изображений в дискретные токены.
Модель скрытых действий (LAM)
Алгоритм, способный определять управляющие команды агента по изменению пикселей на видео без явной разметки.
Эффект параллакса
Визуальное изменение взаимного положения объектов из-за перемещения точки обзора, когда дальние объекты движутся медленнее ближних.
MaskGIT
Архитектура генерации изображений и видео, позволяющая предсказывать токены параллельно для ускорения работы.
Поведенческое клонирование
Метод обучения с подкреплением, при котором ИИ-агент обучается имитировать действия эксперта по демонстрациям.
📊 Цифры
🗓 Хронология
  1. Февраль Выход революционной генеративной видеомодели Sora от OpenAI, давшей мощный толчок индустрии.
  2. Недавно Эшли покидает Google DeepMind и переходит на работу в стартап Runway.
  3. Неделя перехода Эшли Runway официально запускает свою продвинутую генеративную видеомодель Gen-3.
⚖️ Другая сторона
Искусственный интеллект Genie AI Google DeepMind Runway Gen-3 Тим Скарфе видео-токенизатор