# Wes Roth: «Google Genie 3 — это не просто видео, это живой мир»

Источник: https://www.youtube.com/watch?v=dq-olkv8tBs
Канал: Wes Roth
Опубликовано: 30.01.2026

---

Компания Google DeepMind представила Genie 3 — продвинутую нейросетевую модель, способную превращать статичные изображения в интерактивные трехмерные миры. Ведущий канала Wes Roth протестировал возможности инструмента, который теперь доступен пользователям с подпиской Google AI Ultra. По мнению автора, технология совершает качественный скачок в создании симуляций: от простых анимаций до полноценных пространств, где можно управлять персонажем, взаимодействовать с объектами и исследовать окружение.

## 🌍 Google DeepMind: От статических картинок к живым мирам
[[JUMP:01:36]]

Google DeepMind выпустила Genie 3 — модель «генератора миров» (world model), о которой в индустрии ИИ говорили уже давно [01:36]. В отличие от обычных видеогенераторов, Genie 3 создает не просто ролик, а среду, в которой пользователь может перемещаться с помощью клавиш WASD и стрелок.

Основные технические возможности управления:

*   Перемещение персонажа вперед, назад и в стороны (WASD).
*   Обзор на 360 градусов с помощью стрелок на клавиатуре [02:03].
*   Прыжки (клавиша пробел), позволяющие преодолевать препятствия [02:16].

На данный момент доступ к инструменту имеют владельцы подписки Google AI Ultra. По словам Уэса Рота, хотя система иногда испытывает проблемы с пропускной способностью из-за наплыва пользователей в первый день запуска, она демонстрирует впечатляющий уровень детализации [03:33].

## 🐱 Физика, свет и «кошачий» реализм
[[JUMP:02:03]]

В первом тесте Рота использовалось изображение черного кота в фэнтезийной таверне. Автор отмечает, что ИИ не просто «оживил» кота, но и правильно вписал его в пространство: персонаж не проваливается сквозь столы и реалистично взаимодействует с предметами [02:28].

*   **Взаимодействие с окружением:** Кот в симуляции может сбивать предметы с полок, что Рот назвал «высшей степенью реализма» для поведения кошачьих [02:56].
*   **Освещение:** В другом примере с девушкой в темной квартире ИИ продемонстрировал мастерство рендеринга света [04:42]. По мнению ведущего, свет, падающий из окна в пасмурный день, выглядит идеально: он динамически меняется на персонаже при поворотах и движении [05:21].

Важно понимать, что это не работа игрового движка в привычном понимании. Весь мир, включая освещение и физические столкновения, генерируется нейросетью «на лету» на основе одной фотографии и текстового описания [04:55].

## 🦛 Массивность и поведение в дикой природе
[[JUMP:05:48]]

Рот провел эксперимент с бегемотом в саванне, чтобы проверить, как модель передает ощущение массы и сложные взаимодействия [06:41].

Интересные наблюдения автора:

*   **Ощущение веса:** Управление бегемотом ощущалось «тяжелым» по сравнению с легким котом. Рот утверждает, что при движении чувствовалась инерция и массивность животного [07:07].
*   **Сложные среды:** При выходе из воды на грязный берег модель изменила характер движения — персонаж начал реалистично буксовать и «тонуть» в грязи [07:32].
*   **Социальное взаимодействие:** Когда бегемот приблизился к стаду антилоп, он начал буквально расталкивать их, и другие животные реагировали на его присутствие [07:46].

В контексте этого теста Рот напомнил зрителям о реальной природе бегемотов, показав их череп, который больше напоминает останки монстра или дракона из-за огромных зубов [06:15]. По его мнению, если бы мы нашли такой череп, не зная о существовании животного, мы бы изобразили его как чудовище из ада, а не как «милое пухлое создание» [06:28].

## 🌲 Лесные тропы и логика пространства
[[JUMP:08:25]]

Для проверки скорости и связности мира Рот использовал изображение волка в лесу. Он отметил, что Genie 3 — самая отзывчивая и быстрая модель из всех существующих аналогов, которые часто казались «вялыми» или забагованными [09:05].

Автор подчеркивает логику генерации:

*   Если персонаж идет по тропе, мир продолжает генерировать дорогу [10:01].
*   Если сойти с тропы в чащу, модель «понимает», что тропинок там быть не должно, и создает густой лес [10:15].

Это свидетельствует о том, что у модели есть внутреннее представление о том, как устроен реальный мир, а не просто набор повторяющихся текстур.

## 🥊 Проблемы синхронизации и «Street Fighter»
[[JUMP:10:27]]

При попытке создать мир на основе файтинга Street Fighter модель столкнулась с трудностями. В сцене присутствовало два персонажа, и поначалу они начали сражаться автономно [10:52]. Однако при попытке ручного управления движения героев начали странным образом синхронизироваться: оба персонажа двигались в одну сторону одновременно, словно связанные невидимой нитью [11:19]. Несмотря на это, Рот похвалил модель за сохранение когерентности при наличии двух активных фигур в кадре [11:47].

## ❄️ Особенности генерации: От «лихих 90-х» до аниме-поезда
[[JUMP:12:02]]

Один из тестов был посвящен созданию атмосферы зимнего восточноевропейского города 90-х годов [12:30].

*   **Сбои системы:** Из-за нагрузки на серверы или ограничений фильтров модель несколько раз выдавала ошибку при попытке создать мир по исходному изображению из Midjourney [13:25].
*   **Результат:** В итоге ИИ сгенерировал специфическую картину: ребенка в оборванной одежде с «облезлой» собакой [13:11]. Рот отметил, что золотистое освещение, которое было на исходнике, исчезло, как только персонаж отошел от начальной точки [13:52].

В эксперименте с видом от первого лица (вид из глаз) модель показала таинственный коридор. Автор, как опытный геймер, заметил «артефакты»: странные объекты в углах, которые выглядели как секретные предметы из видеоигр [15:24]. По мнению Рота, это могли быть неправильно интерпретированные моделью источники света (лампы) [16:20].

Особого внимания удостоился тест с аниме-девушкой в быстро движущемся поезде [16:47].

1. ИИ успешно отрендерил движение пейзажа за окном [17:42].
2. Рот обнаружил странную особенность: если персонаж стоит на месте и не совершает активных действий, симуляция может длиться значительно дольше стандартных 60 секунд [18:23]. Автор предполагает, что это связано с меньшими затратами вычислительных мощностей при отсутствии перемещений [18:37].

## 😱 Кошмары Эдварда Мунка и запуск Doom 2
[[JUMP:18:52]]

Интерпретация картины «Крик» оказалась, по словам ведущего, «кошмарной» [19:06]. Модель создала пугающую 3D-сцену, где перила моста выглядели объемными, но возникла техническая ошибка: лицо персонажа оказалось на затылке [19:32]. Рот отметил, что этот баг с «головой задом наперед» повторился несколько раз в разных генерациях [19:45].

Финальным аккордом стал классический тест для любой вычислительной системы: «Пойдет ли на этом Doom?» [21:29].

Результаты проверки Doom 2 в Genie 3:

*   Модель смогла воспроизвести визуальный стиль игры.
*   Персонаж может открывать двери [21:57].
*   ИИ имитирует работу переключателей и изменение состояния мира [22:09].

Рот был поражен тем, что нейросеть смогла воссоздать логику дверей и рычагов без реального программного кода игры [22:24].

## 🤖 Будущее: Обучение роботов и бесконечные данные
[[JUMP:22:37]]

Подводя итог, Уэс Рот подчеркивает, что Genie 3 — это не просто игрушка для создания коротких видео или демо-версий игр. По заявлениям исследователей Google DeepMind, основная цель таких моделей — создание данных для обучения [22:50].

По мнению Рота, это позволит тренировать роботов в бесконечном количестве разнообразных симуляций, прежде чем выпускать их в реальный мир. Технология World Models открывает путь к созданию ИИ, который понимает физику и причинно-следственные связи нашей реальности гораздо глубже, чем нынешние текстовые чат-боты [23:04].