Компания OpenAI представила масштабное обновление своей флагманской модели GPT-4o, внедрив нативную генерацию изображений непосредственно в интерфейс ChatGPT. В официальной презентации при участии Сэма Альтмана и ведущих исследователей компании были продемонстрированы возможности, которые выходят далеко за рамки простого создания картинок: от безупречного рендеринга сложного текста до глубокого визуального анализа и многоэтапного редактирования в режиме диалога.
🚀 Нативный мультимодальный подход: новая эра GPT-4o 0:00
Уэс Рот отмечает, что новая функция генерации изображений в GPT-4o — это то, чего сообщество ждало с момента первых анонсов . В отличие от предыдущих итераций, где создание изображений казалось скорее «дополнением» или «новинкой», текущее обновление нацелено на реальную полезность для креаторов, преподавателей и малого бизнеса .
Сэм Альтман подчеркнул, что хотя OpenAI была пионером в этой области с моделью DALL-E, долгое время генерация оставалась в категории развлечений . По словам Альтмана, внедрение нативной генерации в GPT-4o — это «огромный шаг вперед», который позволит пользователям делать то, что раньше было невозможно .
Технические подробности раскрыли ведущие исследователи Гейб и Прафул:
- Омни-модель: GPT-4o была обучена как единая модель, работающая со всеми модальностями (текст, аудио, изображение) одновременно «на входе и на выходе» .
- Нативная интеграция: Это не просто связка разных нейросетей, а модель, которая понимает визуальные концепции так же глубоко, как и язык .
- Эволюция проекта: Работа над нативной поддержкой изображений началась два года назад как научный эксперимент . Год назад модель уже показывала «признаки жизни», научившись рендерить абзацы текста, но была ненадежной и часто допускала опечатки .
📸 Анализ «селфи-демо» и консистентность персонажей 3:52
Одной из самых впечатляющих частей презентации стала демонстрация, где Гейб сделал селфи с коллегами и попросил ChatGPT превратить его в кадр из аниме .
Уэс Рот провел детальный разбор полученного результата, отметив несколько критических моментов:
- Точность деталей: Модель идеально передала цвета и типы одежды: коричневую рубашку на пуговицах, серую толстовку и сине-зеленую футболку Сэма Альтмана .
- Этническая принадлежность: Рот считает, что нейросеть «попала в точку» с этническими чертами и внешностью каждого участника, создав их узнаваемые аниме-версии .
- Фон и освещение: Модель не просто наложила фильтр, а фактически воссоздала сцену. Оранжевая перегородка в офисе превратилась в элемент интерьера, сохранив структуру и освещение из оригинального фото .
- Жесты рук: По мнению Рота, руки выглядят «феноменально» для ИИ-генерации, хотя при максимальном приближении все еще могут быть заметны небольшие странности в количестве пальцев .
Гейб добавил, что такая управляемость достигается за счет того, что пользователь может предоставлять модели не только текстовые инструкции, но и визуальный контекст или палитру дизайна .
🎨 Креативная свобода и «рабочие» изображения 6:54
Исследователи OpenAI поделились инсайдом: самым популярным внутренним сценарием использования модели стали мемы . Гейб рассказал о своем «медитативном упражнении», в ходе которого он осознал, что нас окружают сотни «рабочих лошадок» среди изображений — картинок, созданных не ради высокой эстетики, а с конкретной целью: убедить, проинформировать или обучить .
Сэм Альтман затронул важный вопрос политики безопасности:
- Больше свободы: OpenAI намерена дать пользователям «гораздо более высокую степень творческого самовыражения» .
- Грань дозволенного: Альтман утверждает, что модель не должна быть оскорбительной по умолчанию, но компания хочет позволить людям создавать то, что им нужно, даже если это находится на грани .
- Итеративный подход: Спикеры признают, что не смогут идеально провести эту черту в первый же день, но готовы «сильно отклониться в сторону творческой свободы», чтобы обеспечить максимальную полезность инструмента .
📚 Образование и профессиональный дизайн 11:14
В ходе презентации сотрудники OpenAI Алан, Мин Чао и Лу продемонстрировали более сложные кейсы:
Создание манги и обучение
Алан показал генерацию страницы манги, объясняющей теорию относительности с юмором . Модель успешно скомбинировала сложные визуальные макеты с пояснительным текстом на разных языках . Сэм Альтман отметил, что генерация таких изображений происходит медленнее, чем раньше, но качество оправдывает ожидание .
Игровые карточки и замена объектов
Мин Чао продемонстрировал создание коллекционной карточки в стиле Sora . Он попросил заменить оригинального «Кошачьего короля» на свою собаку по кличке Санджи, сохранив при этом весь дизайн и четкость мелкого шрифта . Текст на карточке (статистика, год, название модели) остался идеально резким .
Памятная монета и редактирование в диалоге
Лу объединила все предыдущие генерации в дизайн одной «памятной монеты» . Она использовала конкретный HEX-код для цвета и попросила сделать фон прозрачным для последующей печати .
Основные тезисы Лу:
- Модель понимает контекст на протяжении нескольких ходов диалога .
- Она способна поддерживать консистентность объектов при редактировании (например, сохранить монету той же самой при смене фона) .
- Пользователи теперь могут общаться с ChatGPT «в более визуальном ключе» .
🔍 Глубокое визуальное рассуждение и ограничения 19:34
Уэс Рот разобрал примеры из официального блога, которые показывают уровень «интеллекта» модели.
- Сцена в офисе: Модель сгенерировала изображение женщины у доски с логотипом OpenAI на футболке. Рот поражен тем, как точно передан текст и диаграммы на доске .
- Сложные инструкции (Невидимый слон): Был дан запрос показать присутствие «невидимого слона», не рисуя самого слона. Модель справилась, изобразив последствия его действий в комнате . Уэс считает это «оценкой А+», так как старые модели часто ошибались при попытке исключить объект .
- Код в изображение: Модель может анализировать код (например, Three.js) и визуализировать то, что этот код должен отрисовать .
- Инфографика: Генерация коктейлей с рецептами или инфографики о тумане в Сан-Франциско требует от модели связи мировых знаний (рецепты, география) с визуальным исполнением .
Известные ограничения
Несмотря на прогресс, OpenAI признает наличие слабых мест :
- Ошибки при кадрировании (cropping) изображений.
- Галлюцинации и проблемы с «привязкой» (binding), когда в одной сцене присутствует более 10–20 различных концепций .
- Трудности с рендерингом многоязычного текста в сложных условиях.
- Проблемы с отрисовкой очень мелкого и плотного текста на графиках .
Уэс Рот подытожил, что если раньше для редактирования фото требовались специализированные навыки в Photoshop, то теперь для большинства людей основным инструментом станет чат-бот . Инструмент уже начинает развертываться для пользователей версий Plus и Pro, а позже станет доступен и в бесплатной версии .