В ноябре 2025 года Google DeepMind представила SIMA 2 — второе поколение универсального ИИ-агента, способного обучаться и действовать в виртуальных мирах так же, как это делает человек. По мнению автора канала Уэса Рота (Wes Roth), эта технология является «значительным шагом на пути к AGI» (сильному искусственному интеллекту), поскольку она объединяет в себе возможность визуального восприятия, рассуждения через языковые модели и физическое взаимодействие с окружением через стандартные интерфейсы.
🕹️ От игровых ботов к универсальным агентам 0:00
SIMA 2 (Scalable Instructable Multiworld Agent) кардинально отличается от классических игровых ИИ прошлых лет . В отличие от систем вроде OpenAI Five (Dota 2) или AlphaStar (StarCraft II), которые взаимодействовали с играми через API (напрямую с кодом игры), SIMA играет как человек: она «видит» только пиксели на экране и управляет игровым персонажем с помощью виртуальной клавиатуры и мыши .
Ключевой особенностью системы является её универсальность. Как отмечает Уэс Рот, SIMA 2 не обучалась под конкретную игру . Вместо этого она развивает общие навыки — перемещение, использование инструментов, строительство, — которые переносятся из одного виртуального мира в другой.
Основные отличия SIMA 2 от предшественника:
- Интеграция Gemini: В основе архитектуры теперь лежит мощная мультимодальная модель Gemini, что позволяет агенту не просто следовать командам, а «думать» и рассуждать о них .
- Диалоговое взаимодействие: Агент может объяснять свои действия пользователю и отвечать на вопросы о происходящем на экране .
- Самосовершенствование: Система способна обучаться в режиме «самостоятельной игры» (self-play) без участия человека .
🧠 Прыжок в возможностях: Мозг на базе Gemini 8:33
Переход на архитектуру Gemini стал «огромным скачком» в производительности . Если первая версия SIMA опиралась на поведенческое клонирование (обучение на данных, записанных людьми), то SIMA 2 использует Gemini как ядро для принятия решений.
Уэс Рот приводит примеры улучшения когнитивных способностей агента:
- Контекстуальное понимание: В одной из демонстраций игроку нужно было найти «томатный домик», которого физически не существовало в игре. SIMA 2 догадалась, что пользователь имеет в виду красный дом, и направилась к нему .
- Сложные инструкции: В игре Minecraft агент первого поколения не справлялся с задачей «дойти до пещеры и добыть уголь», теряясь в пространстве. SIMA 2 успешно подтвердила цель голосом, нашла пещеру и выполнила добычу .
- Мультимодальность: Агент понимает не только текст, но и эскизы (можно прислать рисунок предмета, и он найдет его в мире), а также эмодзи .
По словам ведущего, SIMA 2 демонстрирует способность к обобщению (generalization): она понимает синонимы (например, разницу между «добыть», «собрать» и «срубить») и выбирает соответствующие инструменты самостоятельно .
📈 Сравнение с человеческими способностями 13:07
Статистика эффективности выполнения задач в SIMA 2 показывает стремительный прогресс. Уэс Рот анализирует график успеха выполнения команд:
- Базовый человеческий уровень на данном бенчмарке составляет около 76% .
- SIMA 1 показывала результат всего в 31%.
- SIMA 2 достигла отметки в 65%, значительно сократив разрыв с человеком всего за 1.5 года .
Ведущий подчеркивает важный психологический момент: критики часто говорят, что ИИ «плох», пока он не достигает уровня человека. Однако, по мнению Рота, история развития ИИ (например, в классификации изображений с 2012 года) показывает, что как только машина достигает человеческого уровня, она не останавливается на нем, а «проносится мимо» . Он задает риторический вопрос: если SIMA 2 уже так близка к человеку, есть ли основания полагать, что SIMA 3 или SIMA 4 не превзойдут нас? .
🌌 Синергия с Genie 3: Бесконечные миры для обучения 17:17
Одним из самых амбициозных элементов презентации стало объединение SIMA 2 с другой технологией Google — Genie 3 . Genie 3 — это модель, способная генерировать полноценные игровые миры «на лету» на основе текстового описания или одного изображения .
Эта связка создает «магическую формулу» для развития AGI:
- Genie 3 предоставляет бесконечное количество данных (симуляций) .
- SIMA 2 выступает в роли «мозга», который тренируется в этих мирах.
Уэс Рот описывает архитектуру самосовершенствования системы как замкнутый цикл, имитирующий работу человеческого мозга :
- Постановщик задач (Task Setter): Экземпляр Gemini, который придумывает задания («иди в спортзал», «построй дом»).
- Агент (Agent): Экземпляр Gemini, выполняющий действия в мире.
- Модель вознаграждения (Reward Model): Еще одна версия Gemini, которая оценивает успех агента и корректирует его поведение .
🤖 Робототехника и «Горький урок» 27:10
По мнению Рота, истинное значение SIMA 2 заключается не в играх, а в будущем робототехники. Видеоигры — это просто безопасная и дешевая песочница .
Если ИИ научится мастерски управлять персонажем в тысяче разных игр, ориентируясь только на зрение, то перенос этого интеллекта в физического робота станет лишь вопросом смены «ввода» . Вместо 3D-рендеринга модель будет получать поток пикселей с камеры робота, а вместо нажатий клавиш — подавать команды на приводы (моторы) .
Ведущий вспоминает концепцию Рича Саттона «Горький урок» (The Bitter Lesson): долгосрочный успех в ИИ всегда приносят методы, которые используют вычисления и автоматическое обучение на данных, а не те, что пытаются вручную прописать правила или человеческие знания . SIMA 2 — воплощение этого принципа.
⚠️ Прогнозы и риски 25:34
Несмотря на оптимизм, Уэс Рот отмечает текущие ограничения моделей:
- Трудности с выполнением долгосрочных многоэтапных задач .
- Ограниченное окно контекста и кратковременная память (хотя Google работает над технологиями «вложенного обучения» для решения этой проблемы) .
В завершение Род делает прогноз для игрового сообщества: с появлением открытых версий подобных агентов (условной SIMA 3), онлайн-игры изменятся навсегда. ММО-миры могут наполниться ботами, которые не просто собирают ресурсы, но и общаются с людьми, кооперируются и ведут себя интереснее, чем реальные игроки .