Google DeepMind: «SIMA 2 приближает нас к созданию AGI через видеоигры»

В ноябре 2025 года Google DeepMind представила SIMA 2 — второе поколение универсального ИИ-агента, способного обучаться и действовать в виртуальных мирах так же, как это делает человек. По мнению автора канала Уэса Рота (Wes Roth), эта технология является «значительным шагом на пути к AGI» (сильному искусственному интеллекту), поскольку она объединяет в себе возможность визуального восприятия, рассуждения через языковые модели и физическое взаимодействие с окружением через стандартные интерфейсы.

🕹️ От игровых ботов к универсальным агентам 0:00

SIMA 2 (Scalable Instructable Multiworld Agent) кардинально отличается от классических игровых ИИ прошлых лет . В отличие от систем вроде OpenAI Five (Dota 2) или AlphaStar (StarCraft II), которые взаимодействовали с играми через API (напрямую с кодом игры), SIMA играет как человек: она «видит» только пиксели на экране и управляет игровым персонажем с помощью виртуальной клавиатуры и мыши .

Ключевой особенностью системы является её универсальность. Как отмечает Уэс Рот, SIMA 2 не обучалась под конкретную игру . Вместо этого она развивает общие навыки — перемещение, использование инструментов, строительство, — которые переносятся из одного виртуального мира в другой.

Основные отличия SIMA 2 от предшественника:

Интеграция Gemini: В основе архитектуры теперь лежит мощная мультимодальная модель Gemini, что позволяет агенту не просто следовать командам, а «думать» и рассуждать о них .
Диалоговое взаимодействие: Агент может объяснять свои действия пользователю и отвечать на вопросы о происходящем на экране .
Самосовершенствование: Система способна обучаться в режиме «самостоятельной игры» (self-play) без участия человека .

🧠 Прыжок в возможностях: Мозг на базе Gemini 8:33

Переход на архитектуру Gemini стал «огромным скачком» в производительности . Если первая версия SIMA опиралась на поведенческое клонирование (обучение на данных, записанных людьми), то SIMA 2 использует Gemini как ядро для принятия решений.

Уэс Рот приводит примеры улучшения когнитивных способностей агента:

Контекстуальное понимание: В одной из демонстраций игроку нужно было найти «томатный домик», которого физически не существовало в игре. SIMA 2 догадалась, что пользователь имеет в виду красный дом, и направилась к нему .
Сложные инструкции: В игре Minecraft агент первого поколения не справлялся с задачей «дойти до пещеры и добыть уголь», теряясь в пространстве. SIMA 2 успешно подтвердила цель голосом, нашла пещеру и выполнила добычу .
Мультимодальность: Агент понимает не только текст, но и эскизы (можно прислать рисунок предмета, и он найдет его в мире), а также эмодзи .

По словам ведущего, SIMA 2 демонстрирует способность к обобщению (generalization): она понимает синонимы (например, разницу между «добыть», «собрать» и «срубить») и выбирает соответствующие инструменты самостоятельно .

📈 Сравнение с человеческими способностями 13:07

Статистика эффективности выполнения задач в SIMA 2 показывает стремительный прогресс. Уэс Рот анализирует график успеха выполнения команд:

Базовый человеческий уровень на данном бенчмарке составляет около 76% .
SIMA 1 показывала результат всего в 31%.
SIMA 2 достигла отметки в 65%, значительно сократив разрыв с человеком всего за 1.5 года .

Ведущий подчеркивает важный психологический момент: критики часто говорят, что ИИ «плох», пока он не достигает уровня человека. Однако, по мнению Рота, история развития ИИ (например, в классификации изображений с 2012 года) показывает, что как только машина достигает человеческого уровня, она не останавливается на нем, а «проносится мимо» . Он задает риторический вопрос: если SIMA 2 уже так близка к человеку, есть ли основания полагать, что SIMA 3 или SIMA 4 не превзойдут нас? .

🌌 Синергия с Genie 3: Бесконечные миры для обучения 17:17

Одним из самых амбициозных элементов презентации стало объединение SIMA 2 с другой технологией Google — Genie 3 . Genie 3 — это модель, способная генерировать полноценные игровые миры «на лету» на основе текстового описания или одного изображения .

Эта связка создает «магическую формулу» для развития AGI:

Genie 3 предоставляет бесконечное количество данных (симуляций) .
SIMA 2 выступает в роли «мозга», который тренируется в этих мирах.

Уэс Рот описывает архитектуру самосовершенствования системы как замкнутый цикл, имитирующий работу человеческого мозга :

Постановщик задач (Task Setter): Экземпляр Gemini, который придумывает задания («иди в спортзал», «построй дом»).
Агент (Agent): Экземпляр Gemini, выполняющий действия в мире.
Модель вознаграждения (Reward Model): Еще одна версия Gemini, которая оценивает успех агента и корректирует его поведение .

🤖 Робототехника и «Горький урок» 27:10

По мнению Рота, истинное значение SIMA 2 заключается не в играх, а в будущем робототехники. Видеоигры — это просто безопасная и дешевая песочница .

Если ИИ научится мастерски управлять персонажем в тысяче разных игр, ориентируясь только на зрение, то перенос этого интеллекта в физического робота станет лишь вопросом смены «ввода» . Вместо 3D-рендеринга модель будет получать поток пикселей с камеры робота, а вместо нажатий клавиш — подавать команды на приводы (моторы) .

Ведущий вспоминает концепцию Рича Саттона «Горький урок» (The Bitter Lesson): долгосрочный успех в ИИ всегда приносят методы, которые используют вычисления и автоматическое обучение на данных, а не те, что пытаются вручную прописать правила или человеческие знания . SIMA 2 — воплощение этого принципа.

⚠️ Прогнозы и риски 25:34

Несмотря на оптимизм, Уэс Рот отмечает текущие ограничения моделей:

Трудности с выполнением долгосрочных многоэтапных задач .
Ограниченное окно контекста и кратковременная память (хотя Google работает над технологиями «вложенного обучения» для решения этой проблемы) .

В завершение Род делает прогноз для игрового сообщества: с появлением открытых версий подобных агентов (условной SIMA 3), онлайн-игры изменятся навсегда. ММО-миры могут наполниться ботами, которые не просто собирают ресурсы, но и общаются с людьми, кооперируются и ведут себя интереснее, чем реальные игроки .