ChatGPT Image 2: Интеллект уровня GPT-5.4 теперь рисует?

Matthew Berman 54,1 тыс. 14 мин 4 мин 22.04.2026
Главное

В мире генеративного искусственного интеллекта произошло событие, которое обещает изменить правила игры в создании визуального контента. OpenAI представила ChatGPT Image 2 — модель нового поколения, которая не просто рисует картинки, а обладает, по словам экспертов, «интеллектом уровня мышления» и глубоким пониманием физического мира.

🚀 Квантовый скачок в качестве: ChatGPT Image 2 против конкурентов 0:00

Мэттью Берман начинает обзор с шокирующих цифр из рейтинга LMSYS Image Arena. Новая модель от OpenAI не просто заняла первое место, она совершила беспрецедентный рывок в качестве .

Основные показатели прогресса:

Ведущий подчеркивает, что это не просто улучшение детализации, а появление у модели способности к логическому выводу и пониманию сложных визуальных задач . Ключевой особенностью стала работа с текстом, макетами и сохранением консистентности персонажей.

🎨 Визуальная мощь и «интеллект мышления» 1:10

Мэттью детально анализирует демонстрационное видео от OpenAI, обращая внимание на специфические аспекты, которые раньше считались слабыми местами нейросетей.

Консистентность и плавные переходы

Одним из самых впечатляющих примеров стала серия изображений хамелеона. Модель смогла сгенерировать последовательность кадров, где хамелеон, одетый в костюм моряка, движется к камере . Фон плавно меняется, сохраняя при этом общую логику и детализацию персонажа от хвоста до самого глаза. Это свидетельствует о высоком уровне «памяти» модели между итерациями генерации .

Детализация и гиперреализм

Модель способна генерировать изображения в разрешении до 2K . В качестве примера приводится тарелка риса, где каждая отдельная крупинка прорисована уникально и четко. Мэттью утверждает, что при взгляде на такие изображения обычный человек не сможет отличить их от реальной фотографии .

Особое внимание уделено атмосферным деталям:

🧪 Практические тесты: от спрайтов до математики 5:11

Чтобы проверить громкие заявления OpenAI, Мэттью Берман провел серию «пыточных тестов» для модели прямо в эфире.

Игровой дизайн и спрайты

Первая задача — создание таблицы спрайтов (sprite sheet) для персонажа видеоигры . Модель успешно справилась с генерацией различных состояний: реакции на урон, удары, уклонения, анимации смерти и специальные эффекты вроде рывков и силовых полей . Все элементы выглядели стилистически однородно и пригодны для использования в разработке.

Математика и логическое обоснование

Модель была протестирована на способность решать уравнения прямо на изображении .

  1. Простая задача: Написать на доске «2 + 2 = ?» и вставить правильный ответ. С этим модель справилась легко, хотя сначала изображение выглядело слишком искусственным .
  2. Сложная задача: Уравнение вида 18 * 24 + 11 - C = ?, где C = 5.
    • В обычном режиме модель совершила ошибку, выдав ответ 413 .
    • При включении «режима мышления» (thinking mode) ChatGPT Image 2 правильно рассчитала результат — 438 — и отобразила его на картинке .

Фотореализм и проблемы с анатомией

При генерации рекламного снимка рук, держащих банки газировки, модель показала отличную работу с бликами на каплях воды и текстом . Однако Мэттью заметил странность: кисть руки выглядела непропорционально огромной, напоминая «руку великана», хотя количество пальцев формально было верным .

🖼️ Создание контента для YouTube и работа с лицами 10:26

Берман протестировал модель в качестве дизайнера превью для видео. Модель показала отличные результаты в двух категориях:

  1. Интеграция лица: Нейросеть практически идеально перенесла лицо Мэттью в сгенерированный кадр, избежав эффекта «зловещей долины» .
  2. Стилизация под MrBeast: ChatGPT Image 2 успешно имитировала специфический стиль превью самого популярного блогера мира, включая шрифты, общую композицию и даже оригинальный логотип канала .

🕵️ Политическая цензура и логические тесты 11:44

Одним из сюрпризов стало отсутствие жесткой цензуры на изображения известных личностей. Модель сгенерировала встречу Илона Маска и Сэма Олтмена за ужином с лобстерами .

В завершение был проведен «тест с мраморным шариком» . На просьбу показать, что произойдет, если поднять перевернутую чашку, под которой лежит шарик, модель четко изобразила шарик на столе именно в том месте, где он должен находиться по законам физики .

💡 Итоги и влияние на индустрию 14:14

Мэттью Берман резюмирует, что ChatGPT Image 2 — это инструмент, который требует от пользователя развития «вкуса» (taste) . Несмотря на то, что интернет наполнится более качественным «нейросетевым шлаком» (AI slop), выигрывать будут те авторы, которые смогут грамотно курировать возможности модели.

Модель демонстрирует не только визуальное совершенство, но и глубокую интеграцию с логическими модулями, что делает её незаменимой для создания графиков, инфографики и технически точных иллюстраций.

💬 Цитаты

«Это не просто генерация изображений. Это, по сути, модель знаний о мире, обладающая интеллектом уровня мышления.»

Мэттью Берман 00:56

«Я гарантирую: если я покажу вам это фото, вы не сможете сказать, что оно создано ИИ.»

Мэттью Берман 03:47

«Вкус имеет значение. Кураторство контента человеком всё ещё необходимо, даже если ИИ-шлак стал на 242 пункта лучше.»

Мэттью Берман 04:57
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
ELO score
Система рейтинга для оценки относительной силы моделей ИИ на основе их сравнения пользователями.
Sprite sheet
Набор кадров анимации персонажа или объекта, собранных в одном файле для использования в видеоиграх.
AI Slop
Низкокачественный, массово генерируемый нейросетями контент, наводняющий интернет.
Step change
Резкое, качественное изменение или прогресс в развитии технологии.
Искусственный интеллект OpenAI ChatGPT Image 2 LMSYS Image Arena Matthew Berman