Уэс Рот о Nano Banana Pro: «Google выпускает хит за хитом»

Google продолжает серию громких релизов в сфере искусственного интеллекта. Вслед за выходом Gemini 3 компания представила Nano Banana Pro — новую модель генерации изображений, которая уже интегрируется в ключевые сервисы экосистемы. Автор канала Wes Roth (Уэс Рот) подробно разобрал возможности новинки, отметив её выдающиеся способности в рендеринге текста, создании сложных инфографик и сохранении консистентности персонажей.

🚀 Новый стандарт генерации текста и графики 0:00

По мнению Уэса Рота, Google в последнее время выпускает «хит за хитом», и Nano Banana Pro, интегрированная с Gemini 3, не стала исключением . Главной особенностью модели автор называет беспрецедентное качество генерации текста внутри изображений .

Основные графические возможности модели:

Безупречный рендеринг сложных надписей, включая игру слов и специфическую типографику (например, фраза о сурке, вырезанная из дерева) .
Интеграция текста в архитектуру: надписи на зданиях выглядят как часть конструкции, учитывая тени и текстуры .
Создание «невозможных» четырехмерных фигур из букв .
Высокая точность в создании научных диаграмм, схем и инфографик, что, по словам ведущего, может произвести революцию в образовании .

💼 Интеграция в бизнес-инструменты Google 1:50

Модель Nano Banana Pro не просто существует как отдельный инструмент, она глубоко внедряется в существующие продукты Google. Уэс Рот выделяет несколько ключевых направлений :

Notebook LM: Инструмент для работы с данными теперь сможет генерировать поясняющие инфографики на основе загруженных документов, PDF-файлов или аудиозаписей .
Google Ads и Merchant Center: Модель позволяет мгновенно локализовать изображения товаров для разных стран, менять фон, освещение и создавать рекламные вариации «в один клик» .
Редактирование студийного качества: Возможность изменять поле зрения (zoom out), дорисовывать окружение вокруг объекта и менять время суток на фото .

Особое внимание автор уделяет функции многоязычности: модель способна переводить надписи на продуктах или вывесках на любые языки, сохраняя исходный стиль шрифта .

🎬 Видеопроизводство: От мечты к сториборду с LTX 3:20

В рамках обзора Уэс Рот продемонстрировал работу платформы LTX (спонсор видео), которая использует модели Nano Banana и Flux для создания полноценных видеороликов из текстовых идей .

Процесс создания видео по методике ведущего:

Создание сториборда, где ИИ отслеживает локации, стиль и персонажей в каждой сцене .
Использование моделей LTX 2 (версии Fast для набросков и Pro для высокого качества), а также Google Veo 2 и Veo 3.1 .
Обеспечение консистентности: персонажи сохраняют внешность, прически и одежду на протяжении всех кадров .

Ведущий поделился личным опытом, рассказав, как с помощью этого инструмента он за один час воссоздал в видеоформате свой ночной кошмар, включая голоса персонажей и аудиовизуальные эффекты .

📊 Бенчмарки и техническое превосходство 5:57

Сравнивая Nano Banana Pro (Gemini 3 Pro Image) с конкурентами, Уэс Рот отмечает значительный прогресс Google. Модель показывает минимальную задержку (latency), сопоставимую с лидерами рынка, и значительно превосходит GPT-4 Image 1 по скорости .

Технические достижения:

Рекордно низкий уровень ошибок при генерации текста на сложных языках, включая арабский, корейский, китайский и японский .
Улучшенное редактирование объектов и персонажей без потери качества при многократных итерациях (multi-turn editing) .
Внедрение SynthID — технологии невидимых водяных знаков, которые позволяют идентифицировать ИИ-контент даже после обрезки изображения .

🎨 Креативные тесты и исторические отсылки 8:20

Сообщество уже начало активно тестировать модель. Среди наиболее интересных примеров Уэс Рот выделил:

Генерацию кадров из воображаемого фильма «Могучие рейнджеры», если бы его режиссером был Квентин Тарантино. Модель точно передала внешность Брэда Питта, Леонардо Ди Каприо и стилистику Умы Турман .
Создание нетехнического руководства по архитектуре Трансформеров с детализированными схемами механизмов внимания (attention mechanism) .

Интересным моментом стало упоминание игры Black & White от студии Lionhead. Модель создала инфографику об этой игре, упомянув её инновационный ИИ . Уэс Рот напомнил, что одним из разработчиков этой игры был Демис Хассабис, нынешний глава Google DeepMind, работающий над Gemini и Nano Banana .

🧪 Личные эксперименты: От спецназа до Вегаса 12:12

Ведущий провел серию собственных тестов, загружая свои фотографии.

Результаты оказались неоднозначными:

Возрастная прогрессия: Модель сгенерировала портреты Уэса от 10 до 80 лет. Автор иронично заметил, что, судя по прогнозу ИИ, к 70 годам у него снова начнут расти волосы на голове .
Стиль "Коммандо": Модель успешно превратила ведущего в героя Арнольда Шварценеггера с боевой раскраской и тактическим снаряжением .
Селфи со звездами: Модель смогла поместить Уэса на фото с десятью знаменитостями (включая Бейонсе), практически не допустив ошибок в анатомии («фантомных конечностей»), хотя и перепутала ориентацию экрана телефона .
Групповое фото в Вегасе: Ведущий «объединил» на одном снимке себя, автора канала Dylan, Илона Маска и Сэма Альтмана. Несмотря на хорошую работу с тенями, при попытке поместить эту же компанию «за решетку» (в тюрьму), ИИ начал терять портретное сходство участников .

Одной из забавных особенностей модели Уэс Рот назвал её настойчивое желание пририсовывать волосы Демису Хассабису на всех генерируемых изображениях, несмотря на то что в реальности он лысый .