# Уэс Рот протестировал Ideogram 2.0: превосходство в тексте и борьба с Midjourney

Источник: https://www.youtube.com/watch?v=nMyvQyO7Zcs
Канал: Wes Roth
Опубликовано: 24.08.2024

---

На рынке генеративного искусства произошло значимое событие: релиз Ideogram 2.0 бросил вызов многолетнему лидерству Midjourney. Популярный технологический обозреватель Уэс Рот провел детальное сравнение двух нейросетей, чтобы выяснить, действительно ли новый игрок способен «подвинуть» признанного фаворита в 2024 году.

## 🎨 Интерфейс и возможности сообщества
[[JUMP:1:05]]

Ideogram 2.0 предлагает пользователям интуитивно понятный веб-интерфейс, который во многом напоминает обновленную платформу Midjourney. Главная страница представляет собой раздел «Discovery», где можно изучать работы других участников, видеть их промпты и настройки, а также оценивать понравившиеся изображения.

Ключевые особенности социальной составляющей платформы:

* Просмотр точных настроек и вариаций для каждого изображения.
* Система рейтингов: лучшие работы за день, неделю, месяц или за все время.
* Возможность копирования удачных промптов для собственного творчества.



## ✨ Инструментарий и «Магические промпты»
[[JUMP:2:39]]

Одной из центральных функций Ideogram является «Magic Prompt» — встроенный ИИ-оптимизатор, который по умолчанию включен и автоматически трансформирует короткие запросы пользователя в более подробные и художественно насыщенные описания.

В арсенале настроек Ideogram 2.0 присутствуют:

* Выбор соотношения сторон (например, 6:9 для широкоформатных изображений).
* Цветовые палитры: пользователь может задать конкретную гамму для генерации.
* Режимы рендеринга: выбор между скоростью (Fast) и качеством (Quality).
* Работа с «сидами» (seed) и негативными промптами для исключения нежелательных элементов.

Уэс Рот отмечает, что для платных подписчиков доступны приватные генерации, в то время как на бесплатном тарифе все созданные изображения по умолчанию остаются публичными.

## ✍️ Революция в генерации текста
[[JUMP:1:59]]

Главным преимуществом Ideogram, по мнению автора видео, является феноменальная точность работы с текстом. В отличие от многих конкурентов, Ideogram 2.0 практически не допускает орфографических ошибок и корректно вписывает надписи в контекст изображения.

В ходе теста с татуировкой «Center of the World» на женском прессе нейросеть продемонстрировала:

1.  **Безупречное правописание**: текст был воспроизведен символ в символ.
2.  **3D-искажение**: буквы естественным образом изгибались, следуя анатомии тела и складкам кожи.
3.  **Реалистичные детали**: ИИ добавил характерное покраснение вокруг свежих букв татуировки, что придает изображению достоверность.

Для сравнения, Midjourney в этом тесте либо выдавала ошибки в словах, либо подвергала контент цензуре, заменяя «подтянутый пресс» изображением толстого кота с табличкой.

## ⚔️ Битва стилей: от Ван Гога до «Офиса»
[[JUMP:7:27]]

Уэс Рот провел серию стресс-тестов, предлагая нейросетям сложные и необычные задачи. 

* **Шутер от первого лица в стиле Ван Гога**: Ideogram отлично справилась с задачей, создав узнаваемую манеру письма, хотя «магический промпт» иногда добавлял лишние детали, такие как вазы с подсолнухами в комнате игрока.
* **Мутантный конь из пламени и пепла**: Нейросеть точно передала все элементы — пустыню, черное небо и красную луну. 
* **Сифонофора-кот (Тест Дуайта)**: Вдохновившись сериалом «Офис», Уэс попытался скрестить кота с колонией морских организмов — сифонофорами.

По мнению Рота, Midjourney по-прежнему значительно превосходит конкурента в создании «странных» гибридов и объектов, которых нет в обучающей выборке. Ideogram в тесте с сифонофорой-котом выдала посредственные результаты, в то время как Midjourney создала пугающе реалистичные и креативные изображения с щупальцами-вибриссами.



## 🛠 Процесс диффузии и апскейлинг
[[JUMP:14:05]]

Автор объясняет техническую сторону работы таких моделей: обучение происходит путем постепенного разрушения изображения шумом, а генерация — это обратный процесс «очистки» случайного шума до осмысленного объекта по запросу.

Что касается детализации, в Ideogram 2.0 реализована гибкая система апскейлинга (увеличения разрешения):

* **Resemblance (Сходство)**: ползунок определяет, насколько сильно результат будет похож на оригинал. Уэс заметил, что 100% сходство может ограничивать детализацию лица, поэтому рекомендует снижать этот параметр до 70% или ниже для получения более творческих результатов.
* **Detail (Детализация)**: настройка уровня проработки текстур, от которой зависит четкость складок ткани или кожи.

## 📈 Будущее индустрии и рыночные тренды
[[JUMP:28:39]]

Несмотря на технологический рывок Ideogram, Midjourney остается «королем» рынка. Согласно данным Google Trends, поисковый объем Midjourney значительно выше, чем у Stable Diffusion, DALL-E и Ideogram. 

Финансовые показатели Midjourney также впечатляют: компания достигла выручки около $200 млн, будучи одним из первых платных сервисов в своей нише. Однако график показывает, что разрыв между Midjourney и Ideogram начинает постепенно сокращаться.

По словам Уэса Рота, хотя Midjourney все еще занимает первое место в его личном рейтинге за счет умения создавать «крутую» картинку даже из посредственного промпта, Ideogram 2.0 стала серьезным конкурентом, особенно в сфере дизайна, маркетинга и работы с текстом.