# ChatGPT Image 2: Интеллект уровня GPT-5.4 теперь рисует?

Источник: https://www.youtube.com/watch?v=uvdRGC4cFhY
Канал: Matthew Berman
Опубликовано: 22.04.2026

---

В мире генеративного искусственного интеллекта произошло событие, которое обещает изменить правила игры в создании визуального контента. OpenAI представила **ChatGPT Image 2** — модель нового поколения, которая не просто рисует картинки, а обладает, по словам экспертов, «интеллектом уровня мышления» и глубоким пониманием физического мира.

## 🚀 Квантовый скачок в качестве: ChatGPT Image 2 против конкурентов
[[JUMP:0:00]]

Мэттью Берман начинает обзор с шокирующих цифр из рейтинга **LMSYS Image Arena**. Новая модель от OpenAI не просто заняла первое место, она совершила беспрецедентный рывок в качестве [0:14]. 

Основные показатели прогресса:

*   **ELO Score:** ChatGPT Image 2 набрала 1512 баллов, в то время как предыдущий лидер — Gemini 3.1 Flash (известная под кодовым именем Nano Banana 2) — имел лишь 1270 баллов [0:28].
*   **Разрыв:** Разница более чем в 250 пунктов ELO указывает на так называемый «step change» — качественный скачок, переводящий технологию на новый уровень [2:40].
*   **Позиционирование:** Разработчики называют это «моделью знаний о мире», сравнивая её когнитивные способности с GPT-5.4 [1:10].

Ведущий подчеркивает, что это не просто улучшение детализации, а появление у модели способности к логическому выводу и пониманию сложных визуальных задач [0:42]. Ключевой особенностью стала работа с текстом, макетами и сохранением консистентности персонажей.

## 🎨 Визуальная мощь и «интеллект мышления»
[[JUMP:1:10]]

Мэттью детально анализирует демонстрационное видео от OpenAI, обращая внимание на специфические аспекты, которые раньше считались слабыми местами нейросетей. 

### Консистентность и плавные переходы
Одним из самых впечатляющих примеров стала серия изображений хамелеона. Модель смогла сгенерировать последовательность кадров, где хамелеон, одетый в костюм моряка, движется к камере [2:01]. Фон плавно меняется, сохраняя при этом общую логику и детализацию персонажа от хвоста до самого глаза. Это свидетельствует о высоком уровне «памяти» модели между итерациями генерации [1:48].

### Детализация и гиперреализм
Модель способна генерировать изображения в разрешении до 2K [3:34]. В качестве примера приводится тарелка риса, где каждая отдельная крупинка прорисована уникально и четко. Мэттью утверждает, что при взгляде на такие изображения обычный человек не сможет отличить их от реальной фотографии [4:02]. 

Особое внимание уделено атмосферным деталям:

*   Пятна от кофе на бумаге [4:15].
*   Текстура рукописного текста.
*   Сложное освещение в различных стилях: от пиксель-арта до кинематографических кадров и манги [4:31].

## 🧪 Практические тесты: от спрайтов до математики
[[JUMP:5:11]]

Чтобы проверить громкие заявления OpenAI, Мэттью Берман провел серию «пыточных тестов» для модели прямо в эфире.

### Игровой дизайн и спрайты
Первая задача — создание таблицы спрайтов (sprite sheet) для персонажа видеоигры [5:25]. Модель успешно справилась с генерацией различных состояний: реакции на урон, удары, уклонения, анимации смерти и специальные эффекты вроде рывков и силовых полей [5:53]. Все элементы выглядели стилистически однородно и пригодны для использования в разработке.

### Математика и логическое обоснование
Модель была протестирована на способность решать уравнения прямо на изображении [6:21].

1.  **Простая задача:** Написать на доске «2 + 2 = ?» и вставить правильный ответ. С этим модель справилась легко, хотя сначала изображение выглядело слишком искусственным [6:35].
2.  **Сложная задача:** Уравнение вида `18 * 24 + 11 - C = ?`, где `C = 5`. 
    *   В обычном режиме модель совершила ошибку, выдав ответ 413 [7:59].
    *   При включении **«режима мышления» (thinking mode)** ChatGPT Image 2 правильно рассчитала результат — **438** — и отобразила его на картинке [8:12].

### Фотореализм и проблемы с анатомией
При генерации рекламного снимка рук, держащих банки газировки, модель показала отличную работу с бликами на каплях воды и текстом [9:05]. Однако Мэттью заметил странность: кисть руки выглядела непропорционально огромной, напоминая «руку великана», хотя количество пальцев формально было верным [8:52].

## 🖼️ Создание контента для YouTube и работа с лицами
[[JUMP:10:26]]

Берман протестировал модель в качестве дизайнера превью для видео. Модель показала отличные результаты в двух категориях:

1.  **Интеграция лица:** Нейросеть практически идеально перенесла лицо Мэттью в сгенерированный кадр, избежав эффекта «зловещей долины» [11:06].
2.  **Стилизация под MrBeast:** ChatGPT Image 2 успешно имитировала специфический стиль превью самого популярного блогера мира, включая шрифты, общую композицию и даже оригинальный логотип канала [11:32].

## 🕵️ Политическая цензура и логические тесты
[[JUMP:11:44]]

Одним из сюрпризов стало отсутствие жесткой цензуры на изображения известных личностей. Модель сгенерировала встречу Илона Маска и Сэма Олтмена за ужином с лобстерами [11:58]. 

*   **Детализация лиц:** Лица Олтмена и Маска получились крайне точными.
*   **Сложные сценарии:** Модель добавила Дарио Амодеи (главу Anthropic) и верно интерпретировала запрос сделать лобстера «живым», чтобы тот укусил Сэма [12:11].
*   **Прогноз старения:** Модель попыталась изобразить Мэттью Бермана в старости. Ведущий отметил, что сгенерированный старик поразительно похож на его собственного отца [13:08]. Однако попытка воссоздать его детский образ провалилась: нейросеть не знала, что в детстве у Мэттью были прямые светлые волосы [13:21].

В завершение был проведен **«тест с мраморным шариком»** [13:34]. На просьбу показать, что произойдет, если поднять перевернутую чашку, под которой лежит шарик, модель четко изобразила шарик на столе именно в том месте, где он должен находиться по законам физики [13:59].

## 💡 Итоги и влияние на индустрию
[[JUMP:14:14]]

Мэттью Берман резюмирует, что ChatGPT Image 2 — это инструмент, который требует от пользователя развития «вкуса» (taste) [4:44]. Несмотря на то, что интернет наполнится более качественным «нейросетевым шлаком» (AI slop), выигрывать будут те авторы, которые смогут грамотно курировать возможности модели. 

Модель демонстрирует не только визуальное совершенство, но и глубокую интеграцию с логическими модулями, что делает её незаменимой для создания графиков, инфографики и технически точных иллюстраций.