Уэс Рот протестировал Ideogram 2.0: превосходство в тексте и борьба с Midjourney

Wes Roth 24,7 тыс. 30 мин 3 мин 24.08.2024
Главное

На рынке генеративного искусства произошло значимое событие: релиз Ideogram 2.0 бросил вызов многолетнему лидерству Midjourney. Популярный технологический обозреватель Уэс Рот провел детальное сравнение двух нейросетей, чтобы выяснить, действительно ли новый игрок способен «подвинуть» признанного фаворита в 2024 году.

🎨 Интерфейс и возможности сообщества 1:05

Ideogram 2.0 предлагает пользователям интуитивно понятный веб-интерфейс, который во многом напоминает обновленную платформу Midjourney. Главная страница представляет собой раздел «Discovery», где можно изучать работы других участников, видеть их промпты и настройки, а также оценивать понравившиеся изображения.

Ключевые особенности социальной составляющей платформы:

✨ Инструментарий и «Магические промпты» 2:39

Одной из центральных функций Ideogram является «Magic Prompt» — встроенный ИИ-оптимизатор, который по умолчанию включен и автоматически трансформирует короткие запросы пользователя в более подробные и художественно насыщенные описания.

В арсенале настроек Ideogram 2.0 присутствуют:

Уэс Рот отмечает, что для платных подписчиков доступны приватные генерации, в то время как на бесплатном тарифе все созданные изображения по умолчанию остаются публичными.

✍️ Революция в генерации текста 1:59

Главным преимуществом Ideogram, по мнению автора видео, является феноменальная точность работы с текстом. В отличие от многих конкурентов, Ideogram 2.0 практически не допускает орфографических ошибок и корректно вписывает надписи в контекст изображения.

В ходе теста с татуировкой «Center of the World» на женском прессе нейросеть продемонстрировала:

  1. Безупречное правописание: текст был воспроизведен символ в символ.
  2. 3D-искажение: буквы естественным образом изгибались, следуя анатомии тела и складкам кожи.
  3. Реалистичные детали: ИИ добавил характерное покраснение вокруг свежих букв татуировки, что придает изображению достоверность.

Для сравнения, Midjourney в этом тесте либо выдавала ошибки в словах, либо подвергала контент цензуре, заменяя «подтянутый пресс» изображением толстого кота с табличкой.

⚔️ Битва стилей: от Ван Гога до «Офиса» 7:27

Уэс Рот провел серию стресс-тестов, предлагая нейросетям сложные и необычные задачи.

По мнению Рота, Midjourney по-прежнему значительно превосходит конкурента в создании «странных» гибридов и объектов, которых нет в обучающей выборке. Ideogram в тесте с сифонофорой-котом выдала посредственные результаты, в то время как Midjourney создала пугающе реалистичные и креативные изображения с щупальцами-вибриссами.

🛠 Процесс диффузии и апскейлинг 14:05

Автор объясняет техническую сторону работы таких моделей: обучение происходит путем постепенного разрушения изображения шумом, а генерация — это обратный процесс «очистки» случайного шума до осмысленного объекта по запросу.

Что касается детализации, в Ideogram 2.0 реализована гибкая система апскейлинга (увеличения разрешения):

📈 Будущее индустрии и рыночные тренды 28:39

Несмотря на технологический рывок Ideogram, Midjourney остается «королем» рынка. Согласно данным Google Trends, поисковый объем Midjourney значительно выше, чем у Stable Diffusion, DALL-E и Ideogram.

Финансовые показатели Midjourney также впечатляют: компания достигла выручки около $200 млн, будучи одним из первых платных сервисов в своей нише. Однако график показывает, что разрыв между Midjourney и Ideogram начинает постепенно сокращаться.

По словам Уэса Рота, хотя Midjourney все еще занимает первое место в его личном рейтинге за счет умения создавать «крутую» картинку даже из посредственного промпта, Ideogram 2.0 стала серьезным конкурентом, особенно в сфере дизайна, маркетинга и работы с текстом.

💬 Цитаты

«Ideogram очень хороша в фундаментальных вещах: понимании того, что вы просите, работе с текстом и внимании к деталям.»

«Midjourney все еще занимает первое место в моем сердце за способность уловить именно то, что я ищу, или создать нечто крутое.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Диффузионная модель
Тип нейросети для генерации изображений, которая создает картинку путем постепенного удаления шума.
Magic Prompt
Инструмент в Ideogram, который использует ИИ для улучшения и расширения пользовательского текстового запроса.
Апскейлинг
Процесс увеличения разрешения и детализации уже сгенерированного изображения.
Сифонофора
Сложный морской организм, представляющий собой колонию из множества специализированных особей.
📊 Цифры
🗓 Хронология
  1. 2024 Релиз Ideogram 2.0 и выход Midjourney за пределы Discord на полноценный веб-сайт.
  2. Последние 12 месяцев Период анализа поисковых трендов, показавший доминирование Midjourney над конкурентами.
⚖️ Другая сторона
Искусственный интеллект Ideogram 2.0 Midjourney Wes Roth генерация изображений