OpenAI представила нативную генерацию изображений: детали презентации с Сэмом Альтманом

Компания OpenAI представила масштабное обновление своей флагманской модели GPT-4o, внедрив нативную генерацию изображений непосредственно в интерфейс ChatGPT. В официальной презентации при участии Сэма Альтмана и ведущих исследователей компании были продемонстрированы возможности, которые выходят далеко за рамки простого создания картинок: от безупречного рендеринга сложного текста до глубокого визуального анализа и многоэтапного редактирования в режиме диалога.

🚀 Нативный мультимодальный подход: новая эра GPT-4o 0:00

Уэс Рот отмечает, что новая функция генерации изображений в GPT-4o — это то, чего сообщество ждало с момента первых анонсов . В отличие от предыдущих итераций, где создание изображений казалось скорее «дополнением» или «новинкой», текущее обновление нацелено на реальную полезность для креаторов, преподавателей и малого бизнеса .

Сэм Альтман подчеркнул, что хотя OpenAI была пионером в этой области с моделью DALL-E, долгое время генерация оставалась в категории развлечений . По словам Альтмана, внедрение нативной генерации в GPT-4o — это «огромный шаг вперед», который позволит пользователям делать то, что раньше было невозможно .

Технические подробности раскрыли ведущие исследователи Гейб и Прафул:

Омни-модель: GPT-4o была обучена как единая модель, работающая со всеми модальностями (текст, аудио, изображение) одновременно «на входе и на выходе» .
Нативная интеграция: Это не просто связка разных нейросетей, а модель, которая понимает визуальные концепции так же глубоко, как и язык .
Эволюция проекта: Работа над нативной поддержкой изображений началась два года назад как научный эксперимент . Год назад модель уже показывала «признаки жизни», научившись рендерить абзацы текста, но была ненадежной и часто допускала опечатки .

📸 Анализ «селфи-демо» и консистентность персонажей 3:52

Одной из самых впечатляющих частей презентации стала демонстрация, где Гейб сделал селфи с коллегами и попросил ChatGPT превратить его в кадр из аниме .

Уэс Рот провел детальный разбор полученного результата, отметив несколько критических моментов:

Точность деталей: Модель идеально передала цвета и типы одежды: коричневую рубашку на пуговицах, серую толстовку и сине-зеленую футболку Сэма Альтмана .
Этническая принадлежность: Рот считает, что нейросеть «попала в точку» с этническими чертами и внешностью каждого участника, создав их узнаваемые аниме-версии .
Фон и освещение: Модель не просто наложила фильтр, а фактически воссоздала сцену. Оранжевая перегородка в офисе превратилась в элемент интерьера, сохранив структуру и освещение из оригинального фото .
Жесты рук: По мнению Рота, руки выглядят «феноменально» для ИИ-генерации, хотя при максимальном приближении все еще могут быть заметны небольшие странности в количестве пальцев .

Гейб добавил, что такая управляемость достигается за счет того, что пользователь может предоставлять модели не только текстовые инструкции, но и визуальный контекст или палитру дизайна .

🎨 Креативная свобода и «рабочие» изображения 6:54

Исследователи OpenAI поделились инсайдом: самым популярным внутренним сценарием использования модели стали мемы . Гейб рассказал о своем «медитативном упражнении», в ходе которого он осознал, что нас окружают сотни «рабочих лошадок» среди изображений — картинок, созданных не ради высокой эстетики, а с конкретной целью: убедить, проинформировать или обучить .

Сэм Альтман затронул важный вопрос политики безопасности:

Больше свободы: OpenAI намерена дать пользователям «гораздо более высокую степень творческого самовыражения» .
Грань дозволенного: Альтман утверждает, что модель не должна быть оскорбительной по умолчанию, но компания хочет позволить людям создавать то, что им нужно, даже если это находится на грани .
Итеративный подход: Спикеры признают, что не смогут идеально провести эту черту в первый же день, но готовы «сильно отклониться в сторону творческой свободы», чтобы обеспечить максимальную полезность инструмента .

📚 Образование и профессиональный дизайн 11:14

В ходе презентации сотрудники OpenAI Алан, Мин Чао и Лу продемонстрировали более сложные кейсы:

Создание манги и обучение

Алан показал генерацию страницы манги, объясняющей теорию относительности с юмором . Модель успешно скомбинировала сложные визуальные макеты с пояснительным текстом на разных языках . Сэм Альтман отметил, что генерация таких изображений происходит медленнее, чем раньше, но качество оправдывает ожидание .

Игровые карточки и замена объектов

Мин Чао продемонстрировал создание коллекционной карточки в стиле Sora . Он попросил заменить оригинального «Кошачьего короля» на свою собаку по кличке Санджи, сохранив при этом весь дизайн и четкость мелкого шрифта . Текст на карточке (статистика, год, название модели) остался идеально резким .

Памятная монета и редактирование в диалоге

Лу объединила все предыдущие генерации в дизайн одной «памятной монеты» . Она использовала конкретный HEX-код для цвета и попросила сделать фон прозрачным для последующей печати .

Основные тезисы Лу:

Модель понимает контекст на протяжении нескольких ходов диалога .
Она способна поддерживать консистентность объектов при редактировании (например, сохранить монету той же самой при смене фона) .
Пользователи теперь могут общаться с ChatGPT «в более визуальном ключе» .

🔍 Глубокое визуальное рассуждение и ограничения 19:34

Уэс Рот разобрал примеры из официального блога, которые показывают уровень «интеллекта» модели.

Сцена в офисе: Модель сгенерировала изображение женщины у доски с логотипом OpenAI на футболке. Рот поражен тем, как точно передан текст и диаграммы на доске .
Сложные инструкции (Невидимый слон): Был дан запрос показать присутствие «невидимого слона», не рисуя самого слона. Модель справилась, изобразив последствия его действий в комнате . Уэс считает это «оценкой А+», так как старые модели часто ошибались при попытке исключить объект .
Код в изображение: Модель может анализировать код (например, Three.js) и визуализировать то, что этот код должен отрисовать .
Инфографика: Генерация коктейлей с рецептами или инфографики о тумане в Сан-Франциско требует от модели связи мировых знаний (рецепты, география) с визуальным исполнением .

Известные ограничения

Несмотря на прогресс, OpenAI признает наличие слабых мест :

Ошибки при кадрировании (cropping) изображений.
Галлюцинации и проблемы с «привязкой» (binding), когда в одной сцене присутствует более 10–20 различных концепций .
Трудности с рендерингом многоязычного текста в сложных условиях.
Проблемы с отрисовкой очень мелкого и плотного текста на графиках .

Уэс Рот подытожил, что если раньше для редактирования фото требовались специализированные навыки в Photoshop, то теперь для большинства людей основным инструментом станет чат-бот . Инструмент уже начинает развертываться для пользователей версий Plus и Pro, а позже станет доступен и в бесплатной версии .