Компания Google представила новую технологию редактирования и генерации изображений под кодовым названием Nano Banana, которая интегрирована в модель Gemini 2.5 Flash. Ведущий YouTube-канала Wes Roth протестировал возможности нейросети на собственных фотографиях, сделанных на конференции AI4 в Лас-Вегасе, чтобы выяснить, насколько далеко продвинулся искусственный интеллект в понимании контекста, сохранении идентичности персонажей и естественном редактировании сложных сцен.
🍌 Что такое Nano Banana: первый взгляд на Gemini 2.5 Flash 0:00
Название «Nano Banana» изначально было внутренним кодовым именем проекта, который теперь представлен как часть возможностей модели Gemini 2.5 Flash по работе с изображениями . Инструмент доступен пользователям через платформу Google AI Studio по адресу studio.google.com . Одной из ключевых особенностей модели является её способность не просто генерировать картинки с нуля, но и глубоко модифицировать существующие файлы, используя текстовые запросы на естественном языке.
В ходе первых тестов Уэс Рот применил нейросеть к превью (thumbnail) своего видео. Результаты показали следующее:
- Сохранение идентичности: При добавлении «длинных светлых волос» модель сохранила черты лица автора, обеспечив высокую консистентность персонажа .
- Работа с текстом: Нейросеть успешно изменила надписи на картинке, сохранив оригинальный шрифт и стиль оформления .
- Стилизация текста: При запросе превратить слово в «граффити» модель справилась с задачей, хотя, по мнению автора, результат выглядел «слишком аккуратным» для уличного искусства .
- Изменение фона: Модель корректно перенесла объект в космос, создав детализированное изображение черной дыры на заднем плане .
🧑🤝🧑 Удаление объектов и «достраивание» реальности 1:30
Одним из самых впечатляющих тестов стало редактирование группового фото, на котором были запечатлены Уэс Рот, AI-блогер Дилан Кьюриос (Dylan Curious) и его ассистентка Алисса . Автор поставил задачу удалить Алиссу, стоящую в центре между мужчинами.
Результат превзошел ожидания автора: нейросеть не просто удалила человека, но и безупречно восстановила фон . Особенно поразила Уэса работа с архитектурными деталями:
- В оригинале за спиной Алиссы находилась колонна, основание которой было полностью скрыто .
- Модель Gemini 2.5 Flash проанализировала соседнюю колонну и в точности воссоздала узор на основании скрытой колонны .
- Нейросеть корректно дорисовала плитку на полу и пальмы на заднем плане .
По мнению Уэса Рота, хотя технология удаления объектов существует с 1940-х годов, современная реализация в исполнении Google поражает своей скоростью (около 13 секунд на сложный запрос) и способностью к логическому выводу о структуре невидимых объектов , .
🛡️ Броня из бананов и проблемы идентификации 6:08
Экспериментируя с более экстравагантными запросами, Уэс попытался примерить «банановую броню», вдохновившись работами другого блогера — Madvid Pro . Этот тест выявил определенные особенности работы модели с несколькими людьми в кадре.
При запросе «заставь меня носить пластинчатую броню, похожую на банан», нейросеть применила эффект к человеку, стоящему справа, предположив, что именно он является автором запроса . Когда Уэс уточнил запрос, указав «мужчину справа», модель сгенерировала детализированный и «устрашающий» доспех в ярко-желтых тонах . Автор отметил, что модель проявляет определенную «интеллектуальность», интерпретируя даже не совсем точные команды .
📸 Реставрация фото и работа со светом 4:06
Нейросеть была протестирована в задачах улучшения качества старых и дефектных снимков. Результаты оказались неоднозначными:
- Исторические фото: Попытка раскрасить и повысить четкость знаменитого фото Сталина привела к тому, что один из людей на снимке просто исчез . Уэс в шутку назвал это «очень сталинским подходом» .
- Исправление дефектов линзы: На одном из селфи с конференции из-за грязного объектива образовались сильные засветы (lens flares) . После нескольких итераций и уточнения запроса («полностью удалить все световые блики»), Nano Banana смогла очистить изображение, сохранив читаемость лиц, хотя мелкий текст на заднем плане был искажен .
- Цветокоррекция: Модель за 46 секунд успешно удалила сильный красный оттенок с фотографии, сделанной в помещении с плохим освещением, сделав цвета естественными .
🪞 Физика отражений и материалов 13:25
Особое внимание в обзоре уделено способности ИИ имитировать физические свойства поверхностей. В интерьере отеля Bellagio Уэс просил изменить пол:
- Зеркальный пол: Модель хорошо справилась с созданием отражений, хотя иногда путала пол с поверхностью столов .
- Матовый черный: Запрос на создание покрытия, похожего на матовую краску автомобилей, был выполнен частично — нейросеть закрасила большую часть пола, но оставила пробелы в сложных участках .
- Отражения в броне: На одном из сгенерированных изображений, где авторы были одеты в блестящие металлические кирасы, Уэс заметил поразительную деталь — в доспехах отражались не только неоновые огни Вегаса, но и силуэт человека, который якобы делает фото . В оригинальном снимке этого отражения не было, и нейросеть сама «догадалась», что при наличии фотографа его отражение должно присутствовать на металле .
🚫 Ограничения и этические фильтры 18:24
В процессе тестирования были обнаружены жесткие рамки, установленные разработчиками Google:
- Изменение телосложения: Уэс попытался создать изображение себя без рубашки («shirtless»). Модель выполнила запрос, создав реалистичное тело, однако наотрез отказалась вносить изменения в мускулатуру . Любые попытки добавить «рельефный пресс» или «широкие плечи» игнорировались — нейросеть выдавала практически идентичные варианты с минимальными правками . По мнению автора, Google установил очень узкий диапазон допустимых изменений для подобных фото .
- Итеративное редактирование: При попытке внести длинную цепочку изменений (например, сначала переместить героев на мостик корабля Enterprise из Star Trek, а затем надеть на них униформу), модель начала терять внешнее сходство с реальными людьми .
- Водяные знаки: Все изображения, созданные или отредактированные через этот инструмент, помечаются водяным знаком в нижнем левом углу (технология SynthID) .
🏁 Будущее фоторедактирования 21:01
Подводя итоги, Уэс Рот выразил уверенность, что подобные инструменты скоро заменят Photoshop для большинства обычных пользователей . Вместо изучения сложных интерфейсов и инструментов выделения, пользователю достаточно общаться с ИИ на естественном языке.
Ведущий также привел мнение одного из зрителей своего прямого эфира, который считает, что «приложения для знакомств обречены» . Возможность легко изменить свою внешность, машину на заднем плане или местоположение создает серьезные риски для верификации реальности в цифровом пространстве. Тем не менее, Уэс признает Nano Banana «чрезвычайно впечатляющей» моделью, которая работает стабильно даже в первый день публичного релиза .