OpenAI представила нативную генерацию изображений: детали презентации с Сэмом Альтманом

Wes Roth 79,5 тыс. 29 мин 5 мин 25.03.2025
Главное

Компания OpenAI представила масштабное обновление своей флагманской модели GPT-4o, внедрив нативную генерацию изображений непосредственно в интерфейс ChatGPT. В официальной презентации при участии Сэма Альтмана и ведущих исследователей компании были продемонстрированы возможности, которые выходят далеко за рамки простого создания картинок: от безупречного рендеринга сложного текста до глубокого визуального анализа и многоэтапного редактирования в режиме диалога.

🚀 Нативный мультимодальный подход: новая эра GPT-4o 0:00

Уэс Рот отмечает, что новая функция генерации изображений в GPT-4o — это то, чего сообщество ждало с момента первых анонсов . В отличие от предыдущих итераций, где создание изображений казалось скорее «дополнением» или «новинкой», текущее обновление нацелено на реальную полезность для креаторов, преподавателей и малого бизнеса .

Сэм Альтман подчеркнул, что хотя OpenAI была пионером в этой области с моделью DALL-E, долгое время генерация оставалась в категории развлечений . По словам Альтмана, внедрение нативной генерации в GPT-4o — это «огромный шаг вперед», который позволит пользователям делать то, что раньше было невозможно .

Технические подробности раскрыли ведущие исследователи Гейб и Прафул:

📸 Анализ «селфи-демо» и консистентность персонажей 3:52

Одной из самых впечатляющих частей презентации стала демонстрация, где Гейб сделал селфи с коллегами и попросил ChatGPT превратить его в кадр из аниме .

Уэс Рот провел детальный разбор полученного результата, отметив несколько критических моментов:

  1. Точность деталей: Модель идеально передала цвета и типы одежды: коричневую рубашку на пуговицах, серую толстовку и сине-зеленую футболку Сэма Альтмана .
  2. Этническая принадлежность: Рот считает, что нейросеть «попала в точку» с этническими чертами и внешностью каждого участника, создав их узнаваемые аниме-версии .
  3. Фон и освещение: Модель не просто наложила фильтр, а фактически воссоздала сцену. Оранжевая перегородка в офисе превратилась в элемент интерьера, сохранив структуру и освещение из оригинального фото .
  4. Жесты рук: По мнению Рота, руки выглядят «феноменально» для ИИ-генерации, хотя при максимальном приближении все еще могут быть заметны небольшие странности в количестве пальцев .

Гейб добавил, что такая управляемость достигается за счет того, что пользователь может предоставлять модели не только текстовые инструкции, но и визуальный контекст или палитру дизайна .

🎨 Креативная свобода и «рабочие» изображения 6:54

Исследователи OpenAI поделились инсайдом: самым популярным внутренним сценарием использования модели стали мемы . Гейб рассказал о своем «медитативном упражнении», в ходе которого он осознал, что нас окружают сотни «рабочих лошадок» среди изображений — картинок, созданных не ради высокой эстетики, а с конкретной целью: убедить, проинформировать или обучить .

Сэм Альтман затронул важный вопрос политики безопасности:

📚 Образование и профессиональный дизайн 11:14

В ходе презентации сотрудники OpenAI Алан, Мин Чао и Лу продемонстрировали более сложные кейсы:

Создание манги и обучение

Алан показал генерацию страницы манги, объясняющей теорию относительности с юмором . Модель успешно скомбинировала сложные визуальные макеты с пояснительным текстом на разных языках . Сэм Альтман отметил, что генерация таких изображений происходит медленнее, чем раньше, но качество оправдывает ожидание .

Игровые карточки и замена объектов

Мин Чао продемонстрировал создание коллекционной карточки в стиле Sora . Он попросил заменить оригинального «Кошачьего короля» на свою собаку по кличке Санджи, сохранив при этом весь дизайн и четкость мелкого шрифта . Текст на карточке (статистика, год, название модели) остался идеально резким .

Памятная монета и редактирование в диалоге

Лу объединила все предыдущие генерации в дизайн одной «памятной монеты» . Она использовала конкретный HEX-код для цвета и попросила сделать фон прозрачным для последующей печати .

Основные тезисы Лу:

🔍 Глубокое визуальное рассуждение и ограничения 19:34

Уэс Рот разобрал примеры из официального блога, которые показывают уровень «интеллекта» модели.

Известные ограничения

Несмотря на прогресс, OpenAI признает наличие слабых мест :

Уэс Рот подытожил, что если раньше для редактирования фото требовались специализированные навыки в Photoshop, то теперь для большинства людей основным инструментом станет чат-бот . Инструмент уже начинает развертываться для пользователей версий Plus и Pro, а позже станет доступен и в бесплатной версии .

💬 Цитаты

«Это то, чего мы ждали долгое время. Мы заставили вас подождать, но думаем, это того стоило.»

Сэм Альтман 00:40

«Это превращает нейросети в инструменты, а не просто в игрушки для людей.»

«Для большинства людей инструментом для редактирования станет не специализированное ПО, а их чат-бот.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Нативная генерация
Процесс создания изображений моделью, которая была изначально обучена на визуальных данных, а не использующая сторонние инструменты.
Омни-модель
Единая нейросетевая архитектура, способная обрабатывать текст, изображения и аудио без переключения между разными подсистемами.
Binding (привязка)
Способность модели корректно соотносить свойства (например, цвет) с конкретными объектами на изображении.
📊 Цифры
🗓 Хронология
  1. 2022 Начало проекта по интеграции нативной поддержки изображений в GPT-4
  2. 2023 Модель начала показывать первые результаты по рендерингу текста, но была нестабильной
  3. Май 2024 Официальный анонс и запуск GPT-4o с нативной генерацией изображений в ChatGPT
⚖️ Другая сторона
Искусственный интеллект OpenAI GPT-4o Sam Altman Wes Roth ChatGPT