Уэс Рот: «Убьет ли Google Photoshop с помощью Gemini 2.0?»

Wes Roth 48,1 тыс. 16 мин 4 мин 18.03.2025
Главное

Технологический обозреватель Уэс Рот (Wes Roth) провел подробное тестирование экспериментальных возможностей модели Gemini 2.0 Flash от Google, сосредоточившись на генерации и редактировании изображений в реальном времени. В своем новом видео он анализирует, способна ли новая ИИ-система заменить традиционные инструменты графического дизайна, такие как Photoshop, благодаря глубокому визуальному анализу и высокой скорости работы.

🚀 Генерация игровых ассетов и спрайтов 0:00

Уэс Рот начал тестирование в Google AI Studio, используя модель Gemini 2.0 Flash (experimental) с форматом вывода «изображения и текст» . Первым испытанием стало создание игрового уровня на основе существующего листа спрайтов (sprite sheet).

Основные результаты теста:

Рот отмечает, что подобные инструменты могут значительно упростить создание мобильных игр (например, в стиле проектов студии Kairosoft), так как ИИ понимает структуру деревень и населяющих их персонажей .

🛡️ Проблема цензуры и «безопасности» контента 1:45

Одной из самых спорных тем видео стала работа фильтров безопасности Google. В процессе добавления персонажей на спрайт-лист система внезапно заблокировала вывод с пометкой «неразрешенный контент» .

Ключевые наблюдения автора:

По словам Уэса, это самая раздражающая часть работы с моделью: даже при полностью отключенных фильтрах ИИ продолжает видеть «угрозу обществу» в простых графических изменениях .

🎨 Интеллектуальное редактирование и работа с лицами 2:24

Модель Gemini 2.0 Flash показала впечатляющие результаты в понимании инструкций по изменению эмоций и деталей на лицах.

Эксперименты с портретами:

  1. Эмоции: ИИ успешно справился с задачами «сделай её злой», «сделай её очень счастливой» и «придай лицу нейтральное выражение» .
  2. Сложные эффекты: Добавление светящихся красных глаз сохранило перспективу и черты лица, что Уэс назвал «очень впечатляющим» результатом, несмотря на сложный ракурс .
  3. Личные фото: Автор попытался отредактировать собственное фото на мотоцикле. ИИ смог «заставить» его прыгать через ряд машин . Однако при переносе на крышу ночного города модель потеряла портретное сходство, хотя фон был прорисован качественно .

⚔️ Создание миров и RPG-подземелий 5:25

Рот протестировал способность модели создавать сложные изометрические ассеты для RPG. Он выделил важный прием в промпт-инжиниринге: использование фразы «думай пошагово, а затем создай изображение» (think through it step by step and then create an image) . Без этой инструкции модель иногда ограничивается текстовым описанием, ошибочно утверждая, что она — лишь текстовая нейросеть .

Проблемы итеративного редактирования:

☕ Реализм, руки и Kirkland Cold Brew 9:45

Одним из самых качественных тестов стала работа со стоковыми фото. Рот взял изображение модели и банку кофе Kirkland Cold Brew, попросив ИИ «вложить» банку в руки девушке.

Удивительные результаты:

📸 Идентификация и замена объектов 12:16

Интересным кейсом стала попытка извлечь персонажа из группового фото (две женщины с кофейными усами) и создать на его основе фото на паспорт .

Результаты эксперимента:

🏁 Вердикт: убьет ли это Photoshop? 14:38

Уэс Рот считает, что Google активно развивает инструменты, которые в будущем позволят выполнять сложнейшую ретушь без специальных навыков. Он сравнивает возможности Gemini с новым инструментом Canvas от Google (аналог Canvas от OpenAI) .

Итоговые выводы автора:

  1. Скорость и логика: Модель поразительно быстро генерирует ответы и демонстрирует «визуальное мышление», понимая пространственные инструкции .
  2. Качество: Около 50% результатов Рот назвал «невероятными» и «удивляющими», в то время как остальные 50% все еще содержат типичные для ИИ ошибки и странности .
  3. Будущее: Даже на экспериментальной стадии модель способна выполнять задачи Photoshop-уровня через текстовые команды. Рот полагает, что по мере улучшения Gemini может стать более эффективным инструментом, чем традиционные редакторы .
💬 Цитаты

«При добавлении фразы «думай пошагово, а затем создай изображение» — это действительно помогает модели не путаться.»

«На первый взгляд я даже не могу сказать, что это было создано ИИ.»

«Это определенно позволит людям делать правки в стиле Photoshop без необходимости заходить туда и что-то менять вручную.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Sprite sheet (спрайт-лист)
Изображение, содержащее несколько графических элементов (персонажей или объектов), используемых в видеоиграх.
Side scroller
Жанр видеоигр, в которых игрок наблюдает за действием сбоку, а экран прокручивается вслед за движением персонажа.
Prompt engineering
Процесс составления и оптимизации текстовых запросов для получения наиболее точного результата от нейросети.
Isometric view
Метод визуализации трехмерных объектов в двух измерениях, часто используемый в классических RPG.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Google Gemini 2.0 Flash Google AI Studio Adobe Photoshop Уэс Рот генерация изображений