Тест Nano Banana: как Gemini 2.5 Flash редактирует фото и дорисовывает реальность

Wes Roth 33,4 тыс. 22 мин 5 мин 27.08.2025
Главное

Компания Google представила новую технологию редактирования и генерации изображений под кодовым названием Nano Banana, которая интегрирована в модель Gemini 2.5 Flash. Ведущий YouTube-канала Wes Roth протестировал возможности нейросети на собственных фотографиях, сделанных на конференции AI4 в Лас-Вегасе, чтобы выяснить, насколько далеко продвинулся искусственный интеллект в понимании контекста, сохранении идентичности персонажей и естественном редактировании сложных сцен.

🍌 Что такое Nano Banana: первый взгляд на Gemini 2.5 Flash 0:00

Название «Nano Banana» изначально было внутренним кодовым именем проекта, который теперь представлен как часть возможностей модели Gemini 2.5 Flash по работе с изображениями . Инструмент доступен пользователям через платформу Google AI Studio по адресу studio.google.com . Одной из ключевых особенностей модели является её способность не просто генерировать картинки с нуля, но и глубоко модифицировать существующие файлы, используя текстовые запросы на естественном языке.

В ходе первых тестов Уэс Рот применил нейросеть к превью (thumbnail) своего видео. Результаты показали следующее:

🧑‍🤝‍🧑 Удаление объектов и «достраивание» реальности 1:30

Одним из самых впечатляющих тестов стало редактирование группового фото, на котором были запечатлены Уэс Рот, AI-блогер Дилан Кьюриос (Dylan Curious) и его ассистентка Алисса . Автор поставил задачу удалить Алиссу, стоящую в центре между мужчинами.

Результат превзошел ожидания автора: нейросеть не просто удалила человека, но и безупречно восстановила фон . Особенно поразила Уэса работа с архитектурными деталями:

  1. В оригинале за спиной Алиссы находилась колонна, основание которой было полностью скрыто .
  2. Модель Gemini 2.5 Flash проанализировала соседнюю колонну и в точности воссоздала узор на основании скрытой колонны .
  3. Нейросеть корректно дорисовала плитку на полу и пальмы на заднем плане .

По мнению Уэса Рота, хотя технология удаления объектов существует с 1940-х годов, современная реализация в исполнении Google поражает своей скоростью (около 13 секунд на сложный запрос) и способностью к логическому выводу о структуре невидимых объектов , .

🛡️ Броня из бананов и проблемы идентификации 6:08

Экспериментируя с более экстравагантными запросами, Уэс попытался примерить «банановую броню», вдохновившись работами другого блогера — Madvid Pro . Этот тест выявил определенные особенности работы модели с несколькими людьми в кадре.

При запросе «заставь меня носить пластинчатую броню, похожую на банан», нейросеть применила эффект к человеку, стоящему справа, предположив, что именно он является автором запроса . Когда Уэс уточнил запрос, указав «мужчину справа», модель сгенерировала детализированный и «устрашающий» доспех в ярко-желтых тонах . Автор отметил, что модель проявляет определенную «интеллектуальность», интерпретируя даже не совсем точные команды .

📸 Реставрация фото и работа со светом 4:06

Нейросеть была протестирована в задачах улучшения качества старых и дефектных снимков. Результаты оказались неоднозначными:

🪞 Физика отражений и материалов 13:25

Особое внимание в обзоре уделено способности ИИ имитировать физические свойства поверхностей. В интерьере отеля Bellagio Уэс просил изменить пол:

🚫 Ограничения и этические фильтры 18:24

В процессе тестирования были обнаружены жесткие рамки, установленные разработчиками Google:

  1. Изменение телосложения: Уэс попытался создать изображение себя без рубашки («shirtless»). Модель выполнила запрос, создав реалистичное тело, однако наотрез отказалась вносить изменения в мускулатуру . Любые попытки добавить «рельефный пресс» или «широкие плечи» игнорировались — нейросеть выдавала практически идентичные варианты с минимальными правками . По мнению автора, Google установил очень узкий диапазон допустимых изменений для подобных фото .
  2. Итеративное редактирование: При попытке внести длинную цепочку изменений (например, сначала переместить героев на мостик корабля Enterprise из Star Trek, а затем надеть на них униформу), модель начала терять внешнее сходство с реальными людьми .
  3. Водяные знаки: Все изображения, созданные или отредактированные через этот инструмент, помечаются водяным знаком в нижнем левом углу (технология SynthID) .

🏁 Будущее фоторедактирования 21:01

Подводя итоги, Уэс Рот выразил уверенность, что подобные инструменты скоро заменят Photoshop для большинства обычных пользователей . Вместо изучения сложных интерфейсов и инструментов выделения, пользователю достаточно общаться с ИИ на естественном языке.

Ведущий также привел мнение одного из зрителей своего прямого эфира, который считает, что «приложения для знакомств обречены» . Возможность легко изменить свою внешность, машину на заднем плане или местоположение создает серьезные риски для верификации реальности в цифровом пространстве. Тем не менее, Уэс признает Nano Banana «чрезвычайно впечатляющей» моделью, которая работает стабильно даже в первый день публичного релиза .

💬 Цитаты

«Вы просто говорите на естественном языке, и, как по волшебству, фотография меняется.»

«Нейросеть поняла, что с другой стороны улицы тоже должны быть неоновые огни, и отразила их в броне.»

«Я думаю, многие люди будут использовать это для редактирования фото вместо того, чтобы учиться работать в Photoshop.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Nano Banana
Внутреннее кодовое название инструментов редактирования изображений в модели Gemini 2.5 Flash.
Infilling
Процесс заполнения пустых зон изображения контентом, который логически соответствует окружающему фону.
Character consistency
Способность нейросети сохранять черты лица и уникальные особенности человека при изменении его одежды или окружения.
SynthID
Технология Google для встраивания водяных знаков в сгенерированные ИИ изображения.
Lens flare
Оптический дефект в виде бликов, возникающий при попадании яркого света в объектив камеры.
📊 Цифры
🗓 Хронология
  1. Август 2024 Уэс Рот посещает конференцию AI4 в Лас-Вегасе, где делает исходные снимки для теста.
  2. День релиза Google открывает доступ к модели Nano Banana (Gemini 2.5 Flash) в AI Studio.
  3. Момент записи видео Уэс Рот проводит живую трансляцию и записывает обзор возможностей новой модели.
⚖️ Другая сторона
Искусственный интеллект Google Gemini Nano Banana Wes Roth AI Studio SynthID