# Google DeepMind: «SIMA 2 приближает нас к созданию AGI через видеоигры»

Источник: https://www.youtube.com/watch?v=pEa5mbpcBCg
Канал: Wes Roth
Опубликовано: 15.11.2025

---

В ноябре 2025 года Google DeepMind представила **SIMA 2** — второе поколение универсального ИИ-агента, способного обучаться и действовать в виртуальных мирах так же, как это делает человек. По мнению автора канала Уэса Рота (Wes Roth), эта технология является «значительным шагом на пути к AGI» (сильному искусственному интеллекту), поскольку она объединяет в себе возможность визуального восприятия, рассуждения через языковые модели и физическое взаимодействие с окружением через стандартные интерфейсы.

## 🕹️ От игровых ботов к универсальным агентам
[[JUMP:00:00]]

SIMA 2 (Scalable Instructable Multiworld Agent) кардинально отличается от классических игровых ИИ прошлых лет [00:00]. В отличие от систем вроде OpenAI Five (Dota 2) или AlphaStar (StarCraft II), которые взаимодействовали с играми через API (напрямую с кодом игры), SIMA играет как человек: она «видит» только пиксели на экране и управляет игровым персонажем с помощью виртуальной клавиатуры и мыши [07:14].

Ключевой особенностью системы является её универсальность. Как отмечает Уэс Рот, SIMA 2 не обучалась под конкретную игру [04:51]. Вместо этого она развивает общие навыки — перемещение, использование инструментов, строительство, — которые переносятся из одного виртуального мира в другой. 

Основные отличия SIMA 2 от предшественника:

*   **Интеграция Gemini:** В основе архитектуры теперь лежит мощная мультимодальная модель Gemini, что позволяет агенту не просто следовать командам, а «думать» и рассуждать о них [08:21].
*   **Диалоговое взаимодействие:** Агент может объяснять свои действия пользователю и отвечать на вопросы о происходящем на экране [10:30].
*   **Самосовершенствование:** Система способна обучаться в режиме «самостоятельной игры» (self-play) без участия человека [21:42].

## 🧠 Прыжок в возможностях: Мозг на базе Gemini
[[JUMP:08:33]]

Переход на архитектуру Gemini стал «огромным скачком» в производительности [09:39]. Если первая версия SIMA опиралась на поведенческое клонирование (обучение на данных, записанных людьми), то SIMA 2 использует Gemini как ядро для принятия решений. 

Уэс Рот приводит примеры улучшения когнитивных способностей агента:

*   **Контекстуальное понимание:** В одной из демонстраций игроку нужно было найти «томатный домик», которого физически не существовало в игре. SIMA 2 догадалась, что пользователь имеет в виду красный дом, и направилась к нему [11:36].
*   **Сложные инструкции:** В игре *Minecraft* агент первого поколения не справлялся с задачей «дойти до пещеры и добыть уголь», теряясь в пространстве. SIMA 2 успешно подтвердила цель голосом, нашла пещеру и выполнила добычу [09:26].
*   **Мультимодальность:** Агент понимает не только текст, но и эскизы (можно прислать рисунок предмета, и он найдет его в мире), а также эмодзи [12:02].

По словам ведущего, SIMA 2 демонстрирует способность к обобщению (generalization): она понимает синонимы (например, разницу между «добыть», «собрать» и «срубить») и выбирает соответствующие инструменты самостоятельно [12:41].

## 📈 Сравнение с человеческими способностями
[[JUMP:13:07]]

Статистика эффективности выполнения задач в SIMA 2 показывает стремительный прогресс. Уэс Рот анализирует график успеха выполнения команд:

1.  **Базовый человеческий уровень** на данном бенчмарке составляет около **76%** [13:22].
2.  **SIMA 1** показывала результат всего в **31%**.
3.  **SIMA 2** достигла отметки в **65%**, значительно сократив разрыв с человеком всего за 1.5 года [14:00].

Ведущий подчеркивает важный психологический момент: критики часто говорят, что ИИ «плох», пока он не достигает уровня человека. Однако, по мнению Рота, история развития ИИ (например, в классификации изображений с 2012 года) показывает, что как только машина достигает человеческого уровня, она не останавливается на нем, а «проносится мимо» [15:20]. Он задает риторический вопрос: если SIMA 2 уже так близка к человеку, есть ли основания полагать, что SIMA 3 или SIMA 4 не превзойдут нас? [15:58].

## 🌌 Синергия с Genie 3: Бесконечные миры для обучения
[[JUMP:17:17]]

Одним из самых амбициозных элементов презентации стало объединение SIMA 2 с другой технологией Google — **Genie 3** [19:16]. Genie 3 — это модель, способная генерировать полноценные игровые миры «на лету» на основе текстового описания или одного изображения [18:11].

Эта связка создает «магическую формулу» для развития AGI:

*   **Genie 3** предоставляет бесконечное количество данных (симуляций) [19:55].
*   **SIMA 2** выступает в роли «мозга», который тренируется в этих мирах.

Уэс Рот описывает архитектуру самосовершенствования системы как замкнутый цикл, имитирующий работу человеческого мозга [22:46]:

1.  **Постановщик задач (Task Setter):** Экземпляр Gemini, который придумывает задания («иди в спортзал», «построй дом»).
2.  **Агент (Agent):** Экземпляр Gemini, выполняющий действия в мире.
3.  **Модель вознаграждения (Reward Model):** Еще одна версия Gemini, которая оценивает успех агента и корректирует его поведение [22:33].

## 🤖 Робототехника и «Горький урок»
[[JUMP:27:10]]

По мнению Рота, истинное значение SIMA 2 заключается не в играх, а в будущем робототехники. Видеоигры — это просто безопасная и дешевая песочница [00:40]. 

Если ИИ научится мастерски управлять персонажем в тысяче разных игр, ориентируясь только на зрение, то перенос этого интеллекта в физического робота станет лишь вопросом смены «ввода» [1:21]. Вместо 3D-рендеринга модель будет получать поток пикселей с камеры робота, а вместо нажатий клавиш — подавать команды на приводы (моторы) [1:33].

Ведущий вспоминает концепцию Рича Саттона «Горький урок» (The Bitter Lesson): долгосрочный успех в ИИ всегда приносят методы, которые используют вычисления и автоматическое обучение на данных, а не те, что пытаются вручную прописать правила или человеческие знания [27:49]. SIMA 2 — воплощение этого принципа.

## ⚠️ Прогнозы и риски
[[JUMP:25:34]]

Несмотря на оптимизм, Уэс Рот отмечает текущие ограничения моделей:

*   Трудности с выполнением долгосрочных многоэтапных задач [25:34].
*   Ограниченное окно контекста и кратковременная память (хотя Google работает над технологиями «вложенного обучения» для решения этой проблемы) [26:02].

В завершение Род делает прогноз для игрового сообщества: с появлением открытых версий подобных агентов (условной SIMA 3), онлайн-игры изменятся навсегда. ММО-миры могут наполниться ботами, которые не просто собирают ресурсы, но и общаются с людьми, кооперируются и ведут себя интереснее, чем реальные игроки [28:42].