Технологический обозреватель Уэс Рот (Wes Roth) провел подробное тестирование экспериментальных возможностей модели Gemini 2.0 Flash от Google, сосредоточившись на генерации и редактировании изображений в реальном времени. В своем новом видео он анализирует, способна ли новая ИИ-система заменить традиционные инструменты графического дизайна, такие как Photoshop, благодаря глубокому визуальному анализу и высокой скорости работы.
🚀 Генерация игровых ассетов и спрайтов 0:00
Уэс Рот начал тестирование в Google AI Studio, используя модель Gemini 2.0 Flash (experimental) с форматом вывода «изображения и текст» . Первым испытанием стало создание игрового уровня на основе существующего листа спрайтов (sprite sheet).
Основные результаты теста:
- Логика построения: Модель продемонстрировала способность к пошаговому планированию. Она сначала определила базовый слой земли (грязь, камень), затем предложила создать переходы, пещеры и водные объекты .
- Контекстное понимание: Основываясь на плоских спрайтах, ИИ автоматически сгенерировал изображение в стиле сайд-скроллера (вид сбоку), что соответствовало исходному материалу .
- Очистка данных: При работе с изображениями, защищенными водяными знаками, Gemini успешно игнорировала их, выдавая чистый результат без визуального шума .
Рот отмечает, что подобные инструменты могут значительно упростить создание мобильных игр (например, в стиле проектов студии Kairosoft), так как ИИ понимает структуру деревень и населяющих их персонажей .
🛡️ Проблема цензуры и «безопасности» контента 1:45
Одной из самых спорных тем видео стала работа фильтров безопасности Google. В процессе добавления персонажей на спрайт-лист система внезапно заблокировала вывод с пометкой «неразрешенный контент» .
Ключевые наблюдения автора:
- Непрозрачность правил: Уэс выразил недоумение по поводу блокировок, так как он вручную отключил все доступные настройки безопасности (защиту от домогательств, разжигания ненависти и т.д.) .
- Странные категории: В настройках присутствует пункт «гражданская честность» (civic integrity), смысл которого, по мнению Рота, остается туманным, но именно он может влиять на блокировку безобидных игровых персонажей .
- Ложные срабатывания: Модель блокировала даже такие запросы, как замена кошки на голубя или смена времени суток на ночное в безобидной иллюстрации .
По словам Уэса, это самая раздражающая часть работы с моделью: даже при полностью отключенных фильтрах ИИ продолжает видеть «угрозу обществу» в простых графических изменениях .
🎨 Интеллектуальное редактирование и работа с лицами 2:24
Модель Gemini 2.0 Flash показала впечатляющие результаты в понимании инструкций по изменению эмоций и деталей на лицах.
Эксперименты с портретами:
- Эмоции: ИИ успешно справился с задачами «сделай её злой», «сделай её очень счастливой» и «придай лицу нейтральное выражение» .
- Сложные эффекты: Добавление светящихся красных глаз сохранило перспективу и черты лица, что Уэс назвал «очень впечатляющим» результатом, несмотря на сложный ракурс .
- Личные фото: Автор попытался отредактировать собственное фото на мотоцикле. ИИ смог «заставить» его прыгать через ряд машин . Однако при переносе на крышу ночного города модель потеряла портретное сходство, хотя фон был прорисован качественно .
⚔️ Создание миров и RPG-подземелий 5:25
Рот протестировал способность модели создавать сложные изометрические ассеты для RPG. Он выделил важный прием в промпт-инжиниринге: использование фразы «думай пошагово, а затем создай изображение» (think through it step by step and then create an image) . Без этой инструкции модель иногда ограничивается текстовым описанием, ошибочно утверждая, что она — лишь текстовая нейросеть .
Проблемы итеративного редактирования:
- «Слипание» объектов: При добавлении множества элементов (зелья, монеты, факелы) ИИ начинает путаться. Если попросить изменить одну деталь в уже перегруженной сцене, модель часто ошибается .
- Освещение: Gemini пока с трудом различает типы освещения, например, превращая факелы в окна, из которых падает свет .
- Согласованность: Несмотря на локальные огрехи, ИИ смог создать целые игровые миры с последовательным интерфейсом (UI) и художественным стилем, имитируя стилистику киберпанка и Deus Ex .
☕ Реализм, руки и Kirkland Cold Brew 9:45
Одним из самых качественных тестов стала работа со стоковыми фото. Рот взял изображение модели и банку кофе Kirkland Cold Brew, попросив ИИ «вложить» банку в руки девушке.
Удивительные результаты:
- Генерация рук: В отличие от многих других моделей, Gemini 2.0 почти идеально справилась с отрисовкой пальцев, сжимающих банку . Рот отметил, что лишь при сильном зуме заметны небольшие дефекты ногтей.
- Объем и перспектива: Банка кофе выглядела трехмерной и физически корректной, хотя текст на ней был слегка искажен («галлюцинации» шрифтов) .
- Раскадровка: Попытка создать серию изображений (сториборд), где девушка пьет кофе и выражает удовольствие, удалась частично: ИИ следовал логике, но лица в «момент наслаждения» выглядели неестественно .
📸 Идентификация и замена объектов 12:16
Интересным кейсом стала попытка извлечь персонажа из группового фото (две женщины с кофейными усами) и создать на его основе фото на паспорт .
Результаты эксперимента:
- Модель смогла изолировать нужного человека и поместить его на белый фон .
- В тестах с фото на пляже ИИ успешно добавлял и убирал предметы (серф, ковбойская шляпа), но иногда допускал анатомические ошибки — например, рисовал лишнюю третью руку .
🏁 Вердикт: убьет ли это Photoshop? 14:38
Уэс Рот считает, что Google активно развивает инструменты, которые в будущем позволят выполнять сложнейшую ретушь без специальных навыков. Он сравнивает возможности Gemini с новым инструментом Canvas от Google (аналог Canvas от OpenAI) .
Итоговые выводы автора:
- Скорость и логика: Модель поразительно быстро генерирует ответы и демонстрирует «визуальное мышление», понимая пространственные инструкции .
- Качество: Около 50% результатов Рот назвал «невероятными» и «удивляющими», в то время как остальные 50% все еще содержат типичные для ИИ ошибки и странности .
- Будущее: Даже на экспериментальной стадии модель способна выполнять задачи Photoshop-уровня через текстовые команды. Рот полагает, что по мере улучшения Gemini может стать более эффективным инструментом, чем традиционные редакторы .