# OpenAI представила нативную генерацию изображений: детали презентации с Сэмом Альтманом

Источник: https://www.youtube.com/watch?v=2vW2bIlnA7g
Канал: Wes Roth
Опубликовано: 25.03.2025

---

Компания OpenAI представила масштабное обновление своей флагманской модели GPT-4o, внедрив нативную генерацию изображений непосредственно в интерфейс ChatGPT. В официальной презентации при участии Сэма Альтмана и ведущих исследователей компании были продемонстрированы возможности, которые выходят далеко за рамки простого создания картинок: от безупречного рендеринга сложного текста до глубокого визуального анализа и многоэтапного редактирования в режиме диалога.

## 🚀 Нативный мультимодальный подход: новая эра GPT-4o
[[JUMP:0:00]]

Уэс Рот отмечает, что новая функция генерации изображений в GPT-4o — это то, чего сообщество ждало с момента первых анонсов [0:13]. В отличие от предыдущих итераций, где создание изображений казалось скорее «дополнением» или «новинкой», текущее обновление нацелено на реальную полезность для креаторов, преподавателей и малого бизнеса [1:04].

Сэм Альтман подчеркнул, что хотя OpenAI была пионером в этой области с моделью DALL-E, долгое время генерация оставалась в категории развлечений [0:52]. По словам Альтмана, внедрение нативной генерации в GPT-4o — это «огромный шаг вперед», который позволит пользователям делать то, что раньше было невозможно [1:17].

Технические подробности раскрыли ведущие исследователи Гейб и Прафул:

*   **Омни-модель:** GPT-4o была обучена как единая модель, работающая со всеми модальностями (текст, аудио, изображение) одновременно «на входе и на выходе» [4:30].
*   **Нативная интеграция:** Это не просто связка разных нейросетей, а модель, которая понимает визуальные концепции так же глубоко, как и язык [4:42].
*   **Эволюция проекта:** Работа над нативной поддержкой изображений началась два года назад как научный эксперимент [2:10]. Год назад модель уже показывала «признаки жизни», научившись рендерить абзацы текста, но была ненадежной и часто допускала опечатки [2:48].

## 📸 Анализ «селфи-демо» и консистентность персонажей
[[JUMP:03:52]]

Одной из самых впечатляющих частей презентации стала демонстрация, где Гейб сделал селфи с коллегами и попросил ChatGPT превратить его в кадр из аниме [4:04]. 

Уэс Рот провел детальный разбор полученного результата, отметив несколько критических моментов:

1.  **Точность деталей:** Модель идеально передала цвета и типы одежды: коричневую рубашку на пуговицах, серую толстовку и сине-зеленую футболку Сэма Альтмана [9:15].
2.  **Этническая принадлежность:** Рот считает, что нейросеть «попала в точку» с этническими чертами и внешностью каждого участника, создав их узнаваемые аниме-версии [9:03].
3.  **Фон и освещение:** Модель не просто наложила фильтр, а фактически воссоздала сцену. Оранжевая перегородка в офисе превратилась в элемент интерьера, сохранив структуру и освещение из оригинального фото [10:35].
4.  **Жесты рук:** По мнению Рота, руки выглядят «феноменально» для ИИ-генерации, хотя при максимальном приближении все еще могут быть заметны небольшие странности в количестве пальцев [9:55].

Гейб добавил, что такая управляемость достигается за счет того, что пользователь может предоставлять модели не только текстовые инструкции, но и визуальный контекст или палитру дизайна [5:09].

## 🎨 Креативная свобода и «рабочие» изображения
[[JUMP:06:54]]

Исследователи OpenAI поделились инсайдом: самым популярным внутренним сценарием использования модели стали мемы [6:41]. Гейб рассказал о своем «медитативном упражнении», в ходе которого он осознал, что нас окружают сотни «рабочих лошадок» среди изображений — картинок, созданных не ради высокой эстетики, а с конкретной целью: убедить, проинформировать или обучить [7:19].

Сэм Альтман затронул важный вопрос политики безопасности:

*   **Больше свободы:** OpenAI намерена дать пользователям «гораздо более высокую степень творческого самовыражения» [7:45].
*   **Грань дозволенного:** Альтман утверждает, что модель не должна быть оскорбительной по умолчанию, но компания хочет позволить людям создавать то, что им нужно, даже если это находится на грани [7:58]. 
*   **Итеративный подход:** Спикеры признают, что не смогут идеально провести эту черту в первый же день, но готовы «сильно отклониться в сторону творческой свободы», чтобы обеспечить максимальную полезность инструмента [8:10].

## 📚 Образование и профессиональный дизайн
[[JUMP:11:14]]

В ходе презентации сотрудники OpenAI Алан, Мин Чао и Лу продемонстрировали более сложные кейсы:

### Создание манги и обучение
Алан показал генерацию страницы манги, объясняющей теорию относительности с юмором [11:40]. Модель успешно скомбинировала сложные визуальные макеты с пояснительным текстом на разных языках [12:57]. Сэм Альтман отметил, что генерация таких изображений происходит медленнее, чем раньше, но качество оправдывает ожидание [12:31].

### Игровые карточки и замена объектов
Мин Чао продемонстрировал создание коллекционной карточки в стиле Sora [13:37]. Он попросил заменить оригинального «Кошачьего короля» на свою собаку по кличке Санджи, сохранив при этом весь дизайн и четкость мелкого шрифта [14:04]. Текст на карточке (статистика, год, название модели) остался идеально резким [15:09].

### Памятная монета и редактирование в диалоге
Лу объединила все предыдущие генерации в дизайн одной «памятной монеты» [15:38]. Она использовала конкретный HEX-код для цвета и попросила сделать фон прозрачным для последующей печати [16:05].

Основные тезисы Лу:

*   Модель понимает контекст на протяжении нескольких ходов диалога [17:26].
*   Она способна поддерживать консистентность объектов при редактировании (например, сохранить монету той же самой при смене фона) [18:04].
*   Пользователи теперь могут общаться с ChatGPT «в более визуальном ключе» [17:12].

## 🔍 Глубокое визуальное рассуждение и ограничения
[[JUMP:19:34]]

Уэс Рот разобрал примеры из официального блога, которые показывают уровень «интеллекта» модели. 

*   **Сцена в офисе:** Модель сгенерировала изображение женщины у доски с логотипом OpenAI на футболке. Рот поражен тем, как точно передан текст и диаграммы на доске [20:13].
*   **Сложные инструкции (Невидимый слон):** Был дан запрос показать присутствие «невидимого слона», не рисуя самого слона. Модель справилась, изобразив последствия его действий в комнате [24:34]. Уэс считает это «оценкой А+», так как старые модели часто ошибались при попытке исключить объект [24:22].
*   **Код в изображение:** Модель может анализировать код (например, Three.js) и визуализировать то, что этот код должен отрисовать [26:46].
*   **Инфографика:** Генерация коктейлей с рецептами или инфографики о тумане в Сан-Франциско требует от модели связи мировых знаний (рецепты, география) с визуальным исполнением [27:13].

### Известные ограничения
Несмотря на прогресс, OpenAI признает наличие слабых мест [27:40]:

*   Ошибки при кадрировании (cropping) изображений.
*   Галлюцинации и проблемы с «привязкой» (binding), когда в одной сцене присутствует более 10–20 различных концепций [27:54].
*   Трудности с рендерингом многоязычного текста в сложных условиях.
*   Проблемы с отрисовкой очень мелкого и плотного текста на графиках [28:07].

Уэс Рот подытожил, что если раньше для редактирования фото требовались специализированные навыки в Photoshop, то теперь для большинства людей основным инструментом станет чат-бот [19:09]. Инструмент уже начинает развертываться для пользователей версий Plus и Pro, а позже станет доступен и в бесплатной версии [5:37].