ChatGPT Image 2: Интеллект уровня GPT-5.4 теперь рисует?

В мире генеративного искусственного интеллекта произошло событие, которое обещает изменить правила игры в создании визуального контента. OpenAI представила ChatGPT Image 2 — модель нового поколения, которая не просто рисует картинки, а обладает, по словам экспертов, «интеллектом уровня мышления» и глубоким пониманием физического мира.

🚀 Квантовый скачок в качестве: ChatGPT Image 2 против конкурентов 0:00

Мэттью Берман начинает обзор с шокирующих цифр из рейтинга LMSYS Image Arena. Новая модель от OpenAI не просто заняла первое место, она совершила беспрецедентный рывок в качестве .

Основные показатели прогресса:

ELO Score: ChatGPT Image 2 набрала 1512 баллов, в то время как предыдущий лидер — Gemini 3.1 Flash (известная под кодовым именем Nano Banana 2) — имел лишь 1270 баллов .
Разрыв: Разница более чем в 250 пунктов ELO указывает на так называемый «step change» — качественный скачок, переводящий технологию на новый уровень .
Позиционирование: Разработчики называют это «моделью знаний о мире», сравнивая её когнитивные способности с GPT-5.4 .

Ведущий подчеркивает, что это не просто улучшение детализации, а появление у модели способности к логическому выводу и пониманию сложных визуальных задач . Ключевой особенностью стала работа с текстом, макетами и сохранением консистентности персонажей.

🎨 Визуальная мощь и «интеллект мышления» 1:10

Мэттью детально анализирует демонстрационное видео от OpenAI, обращая внимание на специфические аспекты, которые раньше считались слабыми местами нейросетей.

Консистентность и плавные переходы

Одним из самых впечатляющих примеров стала серия изображений хамелеона. Модель смогла сгенерировать последовательность кадров, где хамелеон, одетый в костюм моряка, движется к камере . Фон плавно меняется, сохраняя при этом общую логику и детализацию персонажа от хвоста до самого глаза. Это свидетельствует о высоком уровне «памяти» модели между итерациями генерации .

Детализация и гиперреализм

Модель способна генерировать изображения в разрешении до 2K . В качестве примера приводится тарелка риса, где каждая отдельная крупинка прорисована уникально и четко. Мэттью утверждает, что при взгляде на такие изображения обычный человек не сможет отличить их от реальной фотографии .

Особое внимание уделено атмосферным деталям:

Пятна от кофе на бумаге .
Текстура рукописного текста.
Сложное освещение в различных стилях: от пиксель-арта до кинематографических кадров и манги .

🧪 Практические тесты: от спрайтов до математики 5:11

Чтобы проверить громкие заявления OpenAI, Мэттью Берман провел серию «пыточных тестов» для модели прямо в эфире.

Игровой дизайн и спрайты

Первая задача — создание таблицы спрайтов (sprite sheet) для персонажа видеоигры . Модель успешно справилась с генерацией различных состояний: реакции на урон, удары, уклонения, анимации смерти и специальные эффекты вроде рывков и силовых полей . Все элементы выглядели стилистически однородно и пригодны для использования в разработке.

Математика и логическое обоснование

Модель была протестирована на способность решать уравнения прямо на изображении .

Простая задача: Написать на доске «2 + 2 = ?» и вставить правильный ответ. С этим модель справилась легко, хотя сначала изображение выглядело слишком искусственным .
Сложная задача: Уравнение вида 18 * 24 + 11 - C = ?, где C = 5.
- В обычном режиме модель совершила ошибку, выдав ответ 413 .
- При включении «режима мышления» (thinking mode) ChatGPT Image 2 правильно рассчитала результат — 438 — и отобразила его на картинке .

Фотореализм и проблемы с анатомией

При генерации рекламного снимка рук, держащих банки газировки, модель показала отличную работу с бликами на каплях воды и текстом . Однако Мэттью заметил странность: кисть руки выглядела непропорционально огромной, напоминая «руку великана», хотя количество пальцев формально было верным .

🖼️ Создание контента для YouTube и работа с лицами 10:26

Берман протестировал модель в качестве дизайнера превью для видео. Модель показала отличные результаты в двух категориях:

Интеграция лица: Нейросеть практически идеально перенесла лицо Мэттью в сгенерированный кадр, избежав эффекта «зловещей долины» .
Стилизация под MrBeast: ChatGPT Image 2 успешно имитировала специфический стиль превью самого популярного блогера мира, включая шрифты, общую композицию и даже оригинальный логотип канала .

🕵️ Политическая цензура и логические тесты 11:44

Одним из сюрпризов стало отсутствие жесткой цензуры на изображения известных личностей. Модель сгенерировала встречу Илона Маска и Сэма Олтмена за ужином с лобстерами .

Детализация лиц: Лица Олтмена и Маска получились крайне точными.
Сложные сценарии: Модель добавила Дарио Амодеи (главу Anthropic) и верно интерпретировала запрос сделать лобстера «живым», чтобы тот укусил Сэма .
Прогноз старения: Модель попыталась изобразить Мэттью Бермана в старости. Ведущий отметил, что сгенерированный старик поразительно похож на его собственного отца . Однако попытка воссоздать его детский образ провалилась: нейросеть не знала, что в детстве у Мэттью были прямые светлые волосы .

В завершение был проведен «тест с мраморным шариком» . На просьбу показать, что произойдет, если поднять перевернутую чашку, под которой лежит шарик, модель четко изобразила шарик на столе именно в том месте, где он должен находиться по законам физики .

💡 Итоги и влияние на индустрию 14:14

Мэттью Берман резюмирует, что ChatGPT Image 2 — это инструмент, который требует от пользователя развития «вкуса» (taste) . Несмотря на то, что интернет наполнится более качественным «нейросетевым шлаком» (AI slop), выигрывать будут те авторы, которые смогут грамотно курировать возможности модели.

Модель демонстрирует не только визуальное совершенство, но и глубокую интеграцию с логическими модулями, что делает её незаменимой для создания графиков, инфографики и технически точных иллюстраций.