Google продолжает серию громких релизов в сфере искусственного интеллекта. Вслед за выходом Gemini 3 компания представила Nano Banana Pro — новую модель генерации изображений, которая уже интегрируется в ключевые сервисы экосистемы. Автор канала Wes Roth (Уэс Рот) подробно разобрал возможности новинки, отметив её выдающиеся способности в рендеринге текста, создании сложных инфографик и сохранении консистентности персонажей.
🚀 Новый стандарт генерации текста и графики 0:00
По мнению Уэса Рота, Google в последнее время выпускает «хит за хитом», и Nano Banana Pro, интегрированная с Gemini 3, не стала исключением . Главной особенностью модели автор называет беспрецедентное качество генерации текста внутри изображений .
Основные графические возможности модели:
- Безупречный рендеринг сложных надписей, включая игру слов и специфическую типографику (например, фраза о сурке, вырезанная из дерева) .
- Интеграция текста в архитектуру: надписи на зданиях выглядят как часть конструкции, учитывая тени и текстуры .
- Создание «невозможных» четырехмерных фигур из букв .
- Высокая точность в создании научных диаграмм, схем и инфографик, что, по словам ведущего, может произвести революцию в образовании .
💼 Интеграция в бизнес-инструменты Google 1:50
Модель Nano Banana Pro не просто существует как отдельный инструмент, она глубоко внедряется в существующие продукты Google. Уэс Рот выделяет несколько ключевых направлений :
- Notebook LM: Инструмент для работы с данными теперь сможет генерировать поясняющие инфографики на основе загруженных документов, PDF-файлов или аудиозаписей .
- Google Ads и Merchant Center: Модель позволяет мгновенно локализовать изображения товаров для разных стран, менять фон, освещение и создавать рекламные вариации «в один клик» .
- Редактирование студийного качества: Возможность изменять поле зрения (zoom out), дорисовывать окружение вокруг объекта и менять время суток на фото .
Особое внимание автор уделяет функции многоязычности: модель способна переводить надписи на продуктах или вывесках на любые языки, сохраняя исходный стиль шрифта .
🎬 Видеопроизводство: От мечты к сториборду с LTX 3:20
В рамках обзора Уэс Рот продемонстрировал работу платформы LTX (спонсор видео), которая использует модели Nano Banana и Flux для создания полноценных видеороликов из текстовых идей .
Процесс создания видео по методике ведущего:
- Создание сториборда, где ИИ отслеживает локации, стиль и персонажей в каждой сцене .
- Использование моделей LTX 2 (версии Fast для набросков и Pro для высокого качества), а также Google Veo 2 и Veo 3.1 .
- Обеспечение консистентности: персонажи сохраняют внешность, прически и одежду на протяжении всех кадров .
Ведущий поделился личным опытом, рассказав, как с помощью этого инструмента он за один час воссоздал в видеоформате свой ночной кошмар, включая голоса персонажей и аудиовизуальные эффекты .
📊 Бенчмарки и техническое превосходство 5:57
Сравнивая Nano Banana Pro (Gemini 3 Pro Image) с конкурентами, Уэс Рот отмечает значительный прогресс Google. Модель показывает минимальную задержку (latency), сопоставимую с лидерами рынка, и значительно превосходит GPT-4 Image 1 по скорости .
Технические достижения:
- Рекордно низкий уровень ошибок при генерации текста на сложных языках, включая арабский, корейский, китайский и японский .
- Улучшенное редактирование объектов и персонажей без потери качества при многократных итерациях (multi-turn editing) .
- Внедрение SynthID — технологии невидимых водяных знаков, которые позволяют идентифицировать ИИ-контент даже после обрезки изображения .
🎨 Креативные тесты и исторические отсылки 8:20
Сообщество уже начало активно тестировать модель. Среди наиболее интересных примеров Уэс Рот выделил:
- Генерацию кадров из воображаемого фильма «Могучие рейнджеры», если бы его режиссером был Квентин Тарантино. Модель точно передала внешность Брэда Питта, Леонардо Ди Каприо и стилистику Умы Турман .
- Создание нетехнического руководства по архитектуре Трансформеров с детализированными схемами механизмов внимания (attention mechanism) .
Интересным моментом стало упоминание игры Black & White от студии Lionhead. Модель создала инфографику об этой игре, упомянув её инновационный ИИ . Уэс Рот напомнил, что одним из разработчиков этой игры был Демис Хассабис, нынешний глава Google DeepMind, работающий над Gemini и Nano Banana .
🧪 Личные эксперименты: От спецназа до Вегаса 12:12
Ведущий провел серию собственных тестов, загружая свои фотографии.
Результаты оказались неоднозначными:
- Возрастная прогрессия: Модель сгенерировала портреты Уэса от 10 до 80 лет. Автор иронично заметил, что, судя по прогнозу ИИ, к 70 годам у него снова начнут расти волосы на голове .
- Стиль "Коммандо": Модель успешно превратила ведущего в героя Арнольда Шварценеггера с боевой раскраской и тактическим снаряжением .
- Селфи со звездами: Модель смогла поместить Уэса на фото с десятью знаменитостями (включая Бейонсе), практически не допустив ошибок в анатомии («фантомных конечностей»), хотя и перепутала ориентацию экрана телефона .
- Групповое фото в Вегасе: Ведущий «объединил» на одном снимке себя, автора канала Dylan, Илона Маска и Сэма Альтмана. Несмотря на хорошую работу с тенями, при попытке поместить эту же компанию «за решетку» (в тюрьму), ИИ начал терять портретное сходство участников .
Одной из забавных особенностей модели Уэс Рот назвал её настойчивое желание пририсовывать волосы Демису Хассабису на всех генерируемых изображениях, несмотря на то что в реальности он лысый .