На рынке генеративного искусства произошло значимое событие: релиз Ideogram 2.0 бросил вызов многолетнему лидерству Midjourney. Популярный технологический обозреватель Уэс Рот провел детальное сравнение двух нейросетей, чтобы выяснить, действительно ли новый игрок способен «подвинуть» признанного фаворита в 2024 году.
🎨 Интерфейс и возможности сообщества 1:05
Ideogram 2.0 предлагает пользователям интуитивно понятный веб-интерфейс, который во многом напоминает обновленную платформу Midjourney. Главная страница представляет собой раздел «Discovery», где можно изучать работы других участников, видеть их промпты и настройки, а также оценивать понравившиеся изображения.
Ключевые особенности социальной составляющей платформы:
- Просмотр точных настроек и вариаций для каждого изображения.
- Система рейтингов: лучшие работы за день, неделю, месяц или за все время.
- Возможность копирования удачных промптов для собственного творчества.
✨ Инструментарий и «Магические промпты» 2:39
Одной из центральных функций Ideogram является «Magic Prompt» — встроенный ИИ-оптимизатор, который по умолчанию включен и автоматически трансформирует короткие запросы пользователя в более подробные и художественно насыщенные описания.
В арсенале настроек Ideogram 2.0 присутствуют:
- Выбор соотношения сторон (например, 6:9 для широкоформатных изображений).
- Цветовые палитры: пользователь может задать конкретную гамму для генерации.
- Режимы рендеринга: выбор между скоростью (Fast) и качеством (Quality).
- Работа с «сидами» (seed) и негативными промптами для исключения нежелательных элементов.
Уэс Рот отмечает, что для платных подписчиков доступны приватные генерации, в то время как на бесплатном тарифе все созданные изображения по умолчанию остаются публичными.
✍️ Революция в генерации текста 1:59
Главным преимуществом Ideogram, по мнению автора видео, является феноменальная точность работы с текстом. В отличие от многих конкурентов, Ideogram 2.0 практически не допускает орфографических ошибок и корректно вписывает надписи в контекст изображения.
В ходе теста с татуировкой «Center of the World» на женском прессе нейросеть продемонстрировала:
- Безупречное правописание: текст был воспроизведен символ в символ.
- 3D-искажение: буквы естественным образом изгибались, следуя анатомии тела и складкам кожи.
- Реалистичные детали: ИИ добавил характерное покраснение вокруг свежих букв татуировки, что придает изображению достоверность.
Для сравнения, Midjourney в этом тесте либо выдавала ошибки в словах, либо подвергала контент цензуре, заменяя «подтянутый пресс» изображением толстого кота с табличкой.
⚔️ Битва стилей: от Ван Гога до «Офиса» 7:27
Уэс Рот провел серию стресс-тестов, предлагая нейросетям сложные и необычные задачи.
- Шутер от первого лица в стиле Ван Гога: Ideogram отлично справилась с задачей, создав узнаваемую манеру письма, хотя «магический промпт» иногда добавлял лишние детали, такие как вазы с подсолнухами в комнате игрока.
- Мутантный конь из пламени и пепла: Нейросеть точно передала все элементы — пустыню, черное небо и красную луну.
- Сифонофора-кот (Тест Дуайта): Вдохновившись сериалом «Офис», Уэс попытался скрестить кота с колонией морских организмов — сифонофорами.
По мнению Рота, Midjourney по-прежнему значительно превосходит конкурента в создании «странных» гибридов и объектов, которых нет в обучающей выборке. Ideogram в тесте с сифонофорой-котом выдала посредственные результаты, в то время как Midjourney создала пугающе реалистичные и креативные изображения с щупальцами-вибриссами.
🛠 Процесс диффузии и апскейлинг 14:05
Автор объясняет техническую сторону работы таких моделей: обучение происходит путем постепенного разрушения изображения шумом, а генерация — это обратный процесс «очистки» случайного шума до осмысленного объекта по запросу.
Что касается детализации, в Ideogram 2.0 реализована гибкая система апскейлинга (увеличения разрешения):
- Resemblance (Сходство): ползунок определяет, насколько сильно результат будет похож на оригинал. Уэс заметил, что 100% сходство может ограничивать детализацию лица, поэтому рекомендует снижать этот параметр до 70% или ниже для получения более творческих результатов.
- Detail (Детализация): настройка уровня проработки текстур, от которой зависит четкость складок ткани или кожи.
📈 Будущее индустрии и рыночные тренды 28:39
Несмотря на технологический рывок Ideogram, Midjourney остается «королем» рынка. Согласно данным Google Trends, поисковый объем Midjourney значительно выше, чем у Stable Diffusion, DALL-E и Ideogram.
Финансовые показатели Midjourney также впечатляют: компания достигла выручки около $200 млн, будучи одним из первых платных сервисов в своей нише. Однако график показывает, что разрыв между Midjourney и Ideogram начинает постепенно сокращаться.
По словам Уэса Рота, хотя Midjourney все еще занимает первое место в его личном рейтинге за счет умения создавать «крутую» картинку даже из посредственного промпта, Ideogram 2.0 стала серьезным конкурентом, особенно в сфере дизайна, маркетинга и работы с текстом.