Google DeepMind: «Nano Banana — это не замена, а новый инструмент для художников»

a16z (Andreessen Horowitz) 6,1 тыс. 53 мин 3 мин 28.10.2025
Главное

Будущее визуального творчества: как Google DeepMind создает модели генерации изображений нового поколения 0:26

В свежем выпуске подкаста от a16z (Andreessen Horowitz) эксперты Google DeepMind раскрыли детали создания и развития своей модели генерации изображений, известной в сообществе как «Nano Banana» (официально — Gemini 2.5 Flash image). В дискуссии обсуждались ключевые вехи развития технологии, роль консистентности персонажей, будущие интерфейсы взаимодействия с ИИ и философский вопрос о том, что именно делает результат генерации «искусством».

🍌 Происхождение и феномен Nano Banana 0:38

История Nano Banana началась с развития семейства моделей Imagine, которые традиционно занимали лидирующие позиции по качеству генерации. После появления модели Gemini 2.0 Flash разработчики сфокусировались на интерактивном редактировании, объединив «интеллект» Gemini с визуальным качеством Imagine.

По словам разработчиков, виральный успех модели стал для них неожиданностью. Они отметили несколько ключевых факторов, которые привели к росту популярности:

🎨 Искусство в эпоху «бесконечных инструментов» 5:11

Спикеры выразили убеждение, что нейросети — это не замена художникам, а мощный инструмент, способный избавить творцов от 90% рутинной работы по редактированию, позволяя сосредоточиться на креативной составляющей.

Одной из главных проблем ранних ИИ-моделей была невозможность соблюдения консистентности (персонажей, объектов) в серии изображений. Современные инструменты, такие как Nano Banana, частично решают эту задачу, что открывает двери для создания полноценных нарративных историй.

Что касается определения искусства, участники беседы сошлись на том, что ключевым критерием является намерение (intent). Модель не обладает «вкусом», который профессионалы нарабатывают десятилетиями, но она позволяет визуализировать идеи тем, кто обладает видением, но не владеет сложными техническими навыками.

🖥️ Интерфейсы будущего и роль профессионалов 10:30

Дискуссия коснулась того, как будут выглядеть инструменты для работы с ИИ:

Спикеры отметили, что в будущем инструменты должны стать «умнее»: они не просто будут предоставлять набор ползунков, а смогут предлагать пользователю варианты следующего шага на основе контекста текущей работы.

🔮 Прогнозы: видео, образование и фактчекинг 38:23

В ближайшем будущем разработчики ожидают качественного скачка в следующих областях:

  1. Интеграция видео: Изображения станут лишь кадрами в непрерывном потоке. Модели научатся генерировать последовательные действия во времени.
  2. Образовательная составляющая: ИИ станет визуальным тьютором. Вместо простого текста ученик сможет получать графические объяснения сложных концепций, причем на нужном языке.
  3. Фактчекинг: Сейчас отрасль переходит от фазы «cherry-picking» (выбор лучших из тысяч генераций) к фазе «lemon-picking» — задаче повышения качества самого «плохого» результата, чтобы модель была предсказуемой и надежной для профессионального использования.
  4. Управление через контекст: Возможность загружать огромные брендбуки (например, на 150 страниц), чтобы модель следовала им буквально «до последней буквы», что критически важно для крупного бизнеса.
💬 Цитаты

«Мы сейчас находимся в стадии «выбора лимонов» (lemon-picking), потому что любая модель может выбрать «вишенки» (cherry-pick), которые выглядят идеально.»

Команда Google DeepMind 51:12

«Искусство — это очень философский спор. Для меня самое важное в искусстве — это намерение.»

Команда Google DeepMind 07:39
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Zero-shot
Способность модели выполнять задачу без предварительного обучения на конкретных примерах этой задачи.
Cherry-picking
Практика выбора только самых удачных результатов работы модели для демонстрации её возможностей.
Консистентность
Способность модели сохранять неизменными внешность персонажа или ключевые параметры объекта при изменении композиции или стиля.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Google DeepMind Gemini 2.5 Flash Nano Banana генерация изображений консистентность персонажей