# Уэс Рот: «Убьет ли Google Photoshop с помощью Gemini 2.0?»

Источник: https://www.youtube.com/watch?v=kypgFsYnyEE
Канал: Wes Roth
Опубликовано: 18.03.2025

---

Технологический обозреватель Уэс Рот (Wes Roth) провел подробное тестирование экспериментальных возможностей модели Gemini 2.0 Flash от Google, сосредоточившись на генерации и редактировании изображений в реальном времени. В своем новом видео он анализирует, способна ли новая ИИ-система заменить традиционные инструменты графического дизайна, такие как Photoshop, благодаря глубокому визуальному анализу и высокой скорости работы.

## 🚀 Генерация игровых ассетов и спрайтов
[[JUMP:0:00]]

Уэс Рот начал тестирование в Google AI Studio, используя модель Gemini 2.0 Flash (experimental) с форматом вывода «изображения и текст» [0:00]. Первым испытанием стало создание игрового уровня на основе существующего листа спрайтов (sprite sheet).

Основные результаты теста:

*   **Логика построения:** Модель продемонстрировала способность к пошаговому планированию. Она сначала определила базовый слой земли (грязь, камень), затем предложила создать переходы, пещеры и водные объекты [0:26].
*   **Контекстное понимание:** Основываясь на плоских спрайтах, ИИ автоматически сгенерировал изображение в стиле сайд-скроллера (вид сбоку), что соответствовало исходному материалу [0:38].
*   **Очистка данных:** При работе с изображениями, защищенными водяными знаками, Gemini успешно игнорировала их, выдавая чистый результат без визуального шума [1:32].

Рот отмечает, что подобные инструменты могут значительно упростить создание мобильных игр (например, в стиле проектов студии Kairosoft), так как ИИ понимает структуру деревень и населяющих их персонажей [1:19].

## 🛡️ Проблема цензуры и «безопасности» контента
[[JUMP:1:45]]

Одной из самых спорных тем видео стала работа фильтров безопасности Google. В процессе добавления персонажей на спрайт-лист система внезапно заблокировала вывод с пометкой «неразрешенный контент» [1:45].

Ключевые наблюдения автора:

*   **Непрозрачность правил:** Уэс выразил недоумение по поводу блокировок, так как он вручную отключил все доступные настройки безопасности (защиту от домогательств, разжигания ненависти и т.д.) [1:57].
*   **Странные категории:** В настройках присутствует пункт «гражданская честность» (civic integrity), смысл которого, по мнению Рота, остается туманным, но именно он может влиять на блокировку безобидных игровых персонажей [2:11].
*   **Ложные срабатывания:** Модель блокировала даже такие запросы, как замена кошки на голубя или смена времени суток на ночное в безобидной иллюстрации [4:45].

По словам Уэса, это самая раздражающая часть работы с моделью: даже при полностью отключенных фильтрах ИИ продолжает видеть «угрозу обществу» в простых графических изменениях [9:06].

## 🎨 Интеллектуальное редактирование и работа с лицами
[[JUMP:2:24]]

Модель Gemini 2.0 Flash показала впечатляющие результаты в понимании инструкций по изменению эмоций и деталей на лицах.

Эксперименты с портретами:

1.  **Эмоции:** ИИ успешно справился с задачами «сделай её злой», «сделай её очень счастливой» и «придай лицу нейтральное выражение» [3:02].
2.  **Сложные эффекты:** Добавление светящихся красных глаз сохранило перспективу и черты лица, что Уэс назвал «очень впечатляющим» результатом, несмотря на сложный ракурс [3:15].
3.  **Личные фото:** Автор попытался отредактировать собственное фото на мотоцикле. ИИ смог «заставить» его прыгать через ряд машин [3:42]. Однако при переносе на крышу ночного города модель потеряла портретное сходство, хотя фон был прорисован качественно [3:54].

## ⚔️ Создание миров и RPG-подземелий
[[JUMP:5:25]]

Рот протестировал способность модели создавать сложные изометрические ассеты для RPG. Он выделил важный прием в промпт-инжиниринге: использование фразы «думай пошагово, а затем создай изображение» (think through it step by step and then create an image) [6:03]. Без этой инструкции модель иногда ограничивается текстовым описанием, ошибочно утверждая, что она — лишь текстовая нейросеть [6:18].

Проблемы итеративного редактирования:

*   **«Слипание» объектов:** При добавлении множества элементов (зелья, монеты, факелы) ИИ начинает путаться. Если попросить изменить одну деталь в уже перегруженной сцене, модель часто ошибается [7:22].
*   **Освещение:** Gemini пока с трудом различает типы освещения, например, превращая факелы в окна, из которых падает свет [6:43].
*   **Согласованность:** Несмотря на локальные огрехи, ИИ смог создать целые игровые миры с последовательным интерфейсом (UI) и художественным стилем, имитируя стилистику киберпанка и Deus Ex [8:28].

## ☕ Реализм, руки и Kirkland Cold Brew
[[JUMP:9:45]]

Одним из самых качественных тестов стала работа со стоковыми фото. Рот взял изображение модели и банку кофе Kirkland Cold Brew, попросив ИИ «вложить» банку в руки девушке.

Удивительные результаты:

*   **Генерация рук:** В отличие от многих других моделей, Gemini 2.0 почти идеально справилась с отрисовкой пальцев, сжимающих банку [11:22]. Рот отметил, что лишь при сильном зуме заметны небольшие дефекты ногтей.
*   **Объем и перспектива:** Банка кофе выглядела трехмерной и физически корректной, хотя текст на ней был слегка искажен («галлюцинации» шрифтов) [11:36].
*   **Раскадровка:** Попытка создать серию изображений (сториборд), где девушка пьет кофе и выражает удовольствие, удалась частично: ИИ следовал логике, но лица в «момент наслаждения» выглядели неестественно [12:01].

## 📸 Идентификация и замена объектов
[[JUMP:12:16]]

Интересным кейсом стала попытка извлечь персонажа из группового фото (две женщины с кофейными усами) и создать на его основе фото на паспорт [12:28].

Результаты эксперимента:

*   Модель смогла изолировать нужного человека и поместить его на белый фон [13:06].
*   В тестах с фото на пляже ИИ успешно добавлял и убирал предметы (серф, ковбойская шляпа), но иногда допускал анатомические ошибки — например, рисовал лишнюю третью руку [13:21].

## 🏁 Вердикт: убьет ли это Photoshop?
[[JUMP:14:38]]

Уэс Рот считает, что Google активно развивает инструменты, которые в будущем позволят выполнять сложнейшую ретушь без специальных навыков. Он сравнивает возможности Gemini с новым инструментом Canvas от Google (аналог Canvas от OpenAI) [14:51].

Итоговые выводы автора:

1.  **Скорость и логика:** Модель поразительно быстро генерирует ответы и демонстрирует «визуальное мышление», понимая пространственные инструкции [15:17].
2.  **Качество:** Около 50% результатов Рот назвал «невероятными» и «удивляющими», в то время как остальные 50% все еще содержат типичные для ИИ ошибки и странности [15:30].
3.  **Будущее:** Даже на экспериментальной стадии модель способна выполнять задачи Photoshop-уровня через текстовые команды. Рот полагает, что по мере улучшения Gemini может стать более эффективным инструментом, чем традиционные редакторы [14:51].