Уэс Рот: «Убьет ли Google Photoshop с помощью Gemini 2.0?»

Технологический обозреватель Уэс Рот (Wes Roth) провел подробное тестирование экспериментальных возможностей модели Gemini 2.0 Flash от Google, сосредоточившись на генерации и редактировании изображений в реальном времени. В своем новом видео он анализирует, способна ли новая ИИ-система заменить традиционные инструменты графического дизайна, такие как Photoshop, благодаря глубокому визуальному анализу и высокой скорости работы.

🚀 Генерация игровых ассетов и спрайтов 0:00

Уэс Рот начал тестирование в Google AI Studio, используя модель Gemini 2.0 Flash (experimental) с форматом вывода «изображения и текст» . Первым испытанием стало создание игрового уровня на основе существующего листа спрайтов (sprite sheet).

Основные результаты теста:

Логика построения: Модель продемонстрировала способность к пошаговому планированию. Она сначала определила базовый слой земли (грязь, камень), затем предложила создать переходы, пещеры и водные объекты .
Контекстное понимание: Основываясь на плоских спрайтах, ИИ автоматически сгенерировал изображение в стиле сайд-скроллера (вид сбоку), что соответствовало исходному материалу .
Очистка данных: При работе с изображениями, защищенными водяными знаками, Gemini успешно игнорировала их, выдавая чистый результат без визуального шума .

Рот отмечает, что подобные инструменты могут значительно упростить создание мобильных игр (например, в стиле проектов студии Kairosoft), так как ИИ понимает структуру деревень и населяющих их персонажей .

🛡️ Проблема цензуры и «безопасности» контента 1:45

Одной из самых спорных тем видео стала работа фильтров безопасности Google. В процессе добавления персонажей на спрайт-лист система внезапно заблокировала вывод с пометкой «неразрешенный контент» .

Ключевые наблюдения автора:

Непрозрачность правил: Уэс выразил недоумение по поводу блокировок, так как он вручную отключил все доступные настройки безопасности (защиту от домогательств, разжигания ненависти и т.д.) .
Странные категории: В настройках присутствует пункт «гражданская честность» (civic integrity), смысл которого, по мнению Рота, остается туманным, но именно он может влиять на блокировку безобидных игровых персонажей .
Ложные срабатывания: Модель блокировала даже такие запросы, как замена кошки на голубя или смена времени суток на ночное в безобидной иллюстрации .

По словам Уэса, это самая раздражающая часть работы с моделью: даже при полностью отключенных фильтрах ИИ продолжает видеть «угрозу обществу» в простых графических изменениях .

🎨 Интеллектуальное редактирование и работа с лицами 2:24

Модель Gemini 2.0 Flash показала впечатляющие результаты в понимании инструкций по изменению эмоций и деталей на лицах.

Эксперименты с портретами:

Эмоции: ИИ успешно справился с задачами «сделай её злой», «сделай её очень счастливой» и «придай лицу нейтральное выражение» .
Сложные эффекты: Добавление светящихся красных глаз сохранило перспективу и черты лица, что Уэс назвал «очень впечатляющим» результатом, несмотря на сложный ракурс .
Личные фото: Автор попытался отредактировать собственное фото на мотоцикле. ИИ смог «заставить» его прыгать через ряд машин . Однако при переносе на крышу ночного города модель потеряла портретное сходство, хотя фон был прорисован качественно .

⚔️ Создание миров и RPG-подземелий 5:25

Рот протестировал способность модели создавать сложные изометрические ассеты для RPG. Он выделил важный прием в промпт-инжиниринге: использование фразы «думай пошагово, а затем создай изображение» (think through it step by step and then create an image) . Без этой инструкции модель иногда ограничивается текстовым описанием, ошибочно утверждая, что она — лишь текстовая нейросеть .

Проблемы итеративного редактирования:

«Слипание» объектов: При добавлении множества элементов (зелья, монеты, факелы) ИИ начинает путаться. Если попросить изменить одну деталь в уже перегруженной сцене, модель часто ошибается .
Освещение: Gemini пока с трудом различает типы освещения, например, превращая факелы в окна, из которых падает свет .
Согласованность: Несмотря на локальные огрехи, ИИ смог создать целые игровые миры с последовательным интерфейсом (UI) и художественным стилем, имитируя стилистику киберпанка и Deus Ex .

☕ Реализм, руки и Kirkland Cold Brew 9:45

Одним из самых качественных тестов стала работа со стоковыми фото. Рот взял изображение модели и банку кофе Kirkland Cold Brew, попросив ИИ «вложить» банку в руки девушке.

Удивительные результаты:

Генерация рук: В отличие от многих других моделей, Gemini 2.0 почти идеально справилась с отрисовкой пальцев, сжимающих банку . Рот отметил, что лишь при сильном зуме заметны небольшие дефекты ногтей.
Объем и перспектива: Банка кофе выглядела трехмерной и физически корректной, хотя текст на ней был слегка искажен («галлюцинации» шрифтов) .
Раскадровка: Попытка создать серию изображений (сториборд), где девушка пьет кофе и выражает удовольствие, удалась частично: ИИ следовал логике, но лица в «момент наслаждения» выглядели неестественно .

📸 Идентификация и замена объектов 12:16

Интересным кейсом стала попытка извлечь персонажа из группового фото (две женщины с кофейными усами) и создать на его основе фото на паспорт .

Результаты эксперимента:

Модель смогла изолировать нужного человека и поместить его на белый фон .
В тестах с фото на пляже ИИ успешно добавлял и убирал предметы (серф, ковбойская шляпа), но иногда допускал анатомические ошибки — например, рисовал лишнюю третью руку .

🏁 Вердикт: убьет ли это Photoshop? 14:38

Уэс Рот считает, что Google активно развивает инструменты, которые в будущем позволят выполнять сложнейшую ретушь без специальных навыков. Он сравнивает возможности Gemini с новым инструментом Canvas от Google (аналог Canvas от OpenAI) .

Итоговые выводы автора:

Скорость и логика: Модель поразительно быстро генерирует ответы и демонстрирует «визуальное мышление», понимая пространственные инструкции .
Качество: Около 50% результатов Рот назвал «невероятными» и «удивляющими», в то время как остальные 50% все еще содержат типичные для ИИ ошибки и странности .
Будущее: Даже на экспериментальной стадии модель способна выполнять задачи Photoshop-уровня через текстовые команды. Рот полагает, что по мере улучшения Gemini может стать более эффективным инструментом, чем традиционные редакторы .