В мире генеративного искусственного интеллекта произошло событие, которое обещает изменить правила игры в создании визуального контента. OpenAI представила ChatGPT Image 2 — модель нового поколения, которая не просто рисует картинки, а обладает, по словам экспертов, «интеллектом уровня мышления» и глубоким пониманием физического мира.
🚀 Квантовый скачок в качестве: ChatGPT Image 2 против конкурентов 0:00
Мэттью Берман начинает обзор с шокирующих цифр из рейтинга LMSYS Image Arena. Новая модель от OpenAI не просто заняла первое место, она совершила беспрецедентный рывок в качестве .
Основные показатели прогресса:
- ELO Score: ChatGPT Image 2 набрала 1512 баллов, в то время как предыдущий лидер — Gemini 3.1 Flash (известная под кодовым именем Nano Banana 2) — имел лишь 1270 баллов .
- Разрыв: Разница более чем в 250 пунктов ELO указывает на так называемый «step change» — качественный скачок, переводящий технологию на новый уровень .
- Позиционирование: Разработчики называют это «моделью знаний о мире», сравнивая её когнитивные способности с GPT-5.4 .
Ведущий подчеркивает, что это не просто улучшение детализации, а появление у модели способности к логическому выводу и пониманию сложных визуальных задач . Ключевой особенностью стала работа с текстом, макетами и сохранением консистентности персонажей.
🎨 Визуальная мощь и «интеллект мышления» 1:10
Мэттью детально анализирует демонстрационное видео от OpenAI, обращая внимание на специфические аспекты, которые раньше считались слабыми местами нейросетей.
Консистентность и плавные переходы
Одним из самых впечатляющих примеров стала серия изображений хамелеона. Модель смогла сгенерировать последовательность кадров, где хамелеон, одетый в костюм моряка, движется к камере . Фон плавно меняется, сохраняя при этом общую логику и детализацию персонажа от хвоста до самого глаза. Это свидетельствует о высоком уровне «памяти» модели между итерациями генерации .
Детализация и гиперреализм
Модель способна генерировать изображения в разрешении до 2K . В качестве примера приводится тарелка риса, где каждая отдельная крупинка прорисована уникально и четко. Мэттью утверждает, что при взгляде на такие изображения обычный человек не сможет отличить их от реальной фотографии .
Особое внимание уделено атмосферным деталям:
- Пятна от кофе на бумаге .
- Текстура рукописного текста.
- Сложное освещение в различных стилях: от пиксель-арта до кинематографических кадров и манги .
🧪 Практические тесты: от спрайтов до математики 5:11
Чтобы проверить громкие заявления OpenAI, Мэттью Берман провел серию «пыточных тестов» для модели прямо в эфире.
Игровой дизайн и спрайты
Первая задача — создание таблицы спрайтов (sprite sheet) для персонажа видеоигры . Модель успешно справилась с генерацией различных состояний: реакции на урон, удары, уклонения, анимации смерти и специальные эффекты вроде рывков и силовых полей . Все элементы выглядели стилистически однородно и пригодны для использования в разработке.
Математика и логическое обоснование
Модель была протестирована на способность решать уравнения прямо на изображении .
- Простая задача: Написать на доске «2 + 2 = ?» и вставить правильный ответ. С этим модель справилась легко, хотя сначала изображение выглядело слишком искусственным .
- Сложная задача: Уравнение вида
18 * 24 + 11 - C = ?, гдеC = 5.
Фотореализм и проблемы с анатомией
При генерации рекламного снимка рук, держащих банки газировки, модель показала отличную работу с бликами на каплях воды и текстом . Однако Мэттью заметил странность: кисть руки выглядела непропорционально огромной, напоминая «руку великана», хотя количество пальцев формально было верным .
🖼️ Создание контента для YouTube и работа с лицами 10:26
Берман протестировал модель в качестве дизайнера превью для видео. Модель показала отличные результаты в двух категориях:
- Интеграция лица: Нейросеть практически идеально перенесла лицо Мэттью в сгенерированный кадр, избежав эффекта «зловещей долины» .
- Стилизация под MrBeast: ChatGPT Image 2 успешно имитировала специфический стиль превью самого популярного блогера мира, включая шрифты, общую композицию и даже оригинальный логотип канала .
🕵️ Политическая цензура и логические тесты 11:44
Одним из сюрпризов стало отсутствие жесткой цензуры на изображения известных личностей. Модель сгенерировала встречу Илона Маска и Сэма Олтмена за ужином с лобстерами .
- Детализация лиц: Лица Олтмена и Маска получились крайне точными.
- Сложные сценарии: Модель добавила Дарио Амодеи (главу Anthropic) и верно интерпретировала запрос сделать лобстера «живым», чтобы тот укусил Сэма .
- Прогноз старения: Модель попыталась изобразить Мэттью Бермана в старости. Ведущий отметил, что сгенерированный старик поразительно похож на его собственного отца . Однако попытка воссоздать его детский образ провалилась: нейросеть не знала, что в детстве у Мэттью были прямые светлые волосы .
В завершение был проведен «тест с мраморным шариком» . На просьбу показать, что произойдет, если поднять перевернутую чашку, под которой лежит шарик, модель четко изобразила шарик на столе именно в том месте, где он должен находиться по законам физики .
💡 Итоги и влияние на индустрию 14:14
Мэттью Берман резюмирует, что ChatGPT Image 2 — это инструмент, который требует от пользователя развития «вкуса» (taste) . Несмотря на то, что интернет наполнится более качественным «нейросетевым шлаком» (AI slop), выигрывать будут те авторы, которые смогут грамотно курировать возможности модели.
Модель демонстрирует не только визуальное совершенство, но и глубокую интеграцию с логическими модулями, что делает её незаменимой для создания графиков, инфографики и технически точных иллюстраций.