Компания OpenAI официально открыла доступ к своей революционной модели генерации видео Sora. Ведущий YouTube-канала Wes Roth провел детальное тестирование инструмента, разобрав стоимость генерации, технические возможности интерфейса и реальное качество получаемого контента — от фотореалистичных пейзажей до пугающих «галлюцинаций» нейросети.
🚀 Глобальный запуск и первые трудности 0:00
Долгожданный релиз Sora сопровождался ажиотажем, который привел к временным техническим сбоям. По словам Веса Рота, запуск был «немного хаотичным»: OpenAI пришлось временно приостановить регистрацию новых платных аккаунтов из-за огромного наплыва пользователей, пытающихся одновременно генерировать видео .
На текущий момент в интерфейсе доступна живая лента (feed) пользовательских работ. Рот отмечает, что хотя OpenAI наверняка фильтрует контент, эта лента дает более честное представление о возможностях модели, чем ранее опубликованные «отполированные» примеры . Ведущий подчеркивает, что среди работ встречаются как впечатляющие кадры, так и откровенно странные результаты: например, слон, убегающий от машины, или Ferrari, едущая задом наперед без видимых причин .
⚙️ Технические параметры и стоимость генерации 1:50
Интерфейс Sora предлагает пользователям гибкие настройки для создания роликов. Основные технические возможности включают:
- Методы создания: генерация по текстовому описанию (text-to-video) или на основе загруженного изображения (image-to-video) .
- Стилистические пресеты: Cinematic (кинематографичный), Film Noir (нуар), Balloon World, Archival (архивный), Cardboard and Papercraft (бумажное моделирование) .
- Форматы: горизонтальный (16:9), вертикальный (9:16) и квадратный (1:1) .
- Разрешение: 480p, 720p и 1080p .
- Длительность: фиксированные отрезки по 5, 10, 15 или 20 секунд .
Система работает на основе кредитов, и стоимость видео напрямую зависит от настроек. Ведущий приводит примеры расценок:
- 5-секундное видео в разрешении 480p (один вариант) стоит 25 кредитов .
- Увеличение длительности или количества вариаций пропорционально повышает цену.
- Тот же 5-секундный ролик, но в разрешении 1080p, обойдется уже в 200 кредитов — Вес Рот называет это «огромным скачком» в стоимости .
🎨 Качество визуализации: от восторга до «кошмаров» 3:15
В ходе тестирования Вес Рот проанализировал множество генераций, отметив как сильные, так и слабые стороны физического движка Sora. Среди удачных примеров он выделил сверхреалистичного краба на пляже и детальное изображение Наполеона Бонапарта в Египте . Однако в случае с Наполеоном автор заметил характерную ошибку ИИ: голова одного из солдат была повернута на 180 градусов назад .
Особое внимание Рот уделил сложным запросам. Например, сцена, где лицо женщины состоит из множества движущихся пальцев и рассыпается в белую пыль, была исполнена на удивление точно для такой сложной задачи . Также модель продемонстрировала способность корректно отображать текст: в одном из видео можно было четко прочитать рукописную формулу второго закона Ньютона .
Тем не менее, Вес Рот указывает на ряд проблем:
- Нарушение логики: собаки, играющие в покер, у которых исчезают лапы при движении .
- Ошибки физики: стены, которые становятся невидимыми, если зайти за них, или дверные ручки, направленные не в ту сторону .
- Сюрреализм: Рот описывает некоторые видео как «материал для ночных кошмаров», упоминая ролик о «курорте внутри выброшенного на берег кита» и пугающие кадры с цветами, растущими изо рта .
🔍 Особенности рендеринга и работы с отражениями 15:43
Одной из самых впечатляющих черт Sora Вес Рот считает работу с отражениями. Он заметил необычную техническую деталь: часто основное изображение выглядит плавным (условно 30–60 кадров в секунду), в то время как отражения в воде или на очках кажутся более прерывистыми, как будто они отрендерены с частотой 5–10 кадров в секунду .
Рот предполагает, что OpenAI может использовать «техническую хитрость» — отдельную модель для просчета отражений, подобно тому как в экспериментальной нейросетевой версии игры DOOM от Google DeepMind разные модели отвечали за игровой мир и элементы интерфейса (HUD) . Несмотря на разницу в частоте кадров, сами отражения выглядят крайне достоверно, правильно учитывая тени зданий и сложные геометрические объекты, такие как оконные решетки .
🛠️ Продвинутые инструменты: Storyboard и Recut 5:31
Sora — это не просто генератор «одной кнопкой», а инструмент с функциями редактирования.
- Storyboard (Раскадровка): позволяет описывать последовательность сцен. Например, можно задать, что первые 2.5 секунды мы видим пиратский корабль над городом, а затем пират прыгает с него с парашютом .
- Recut (Перемонтаж): дает возможность изменять уже готовое видео — менять его соотношение сторон, разрешение или накладывать новые стилистические фильтры (например, превратить современную сцену в архивную съемку) .
- Loop и Remix: функции зацикливания видео и смешивания нескольких роликов в один .
Впрочем, Вес Рот признал, что во время его тестов функция Recut часто выдавала ошибки и не всегда корректно применяла выбранные пресеты . Он связывает это с текущей перегрузкой серверов.
📈 Вердикт: стоит ли Sora своих денег? 20:43
Несмотря на частые сообщения об «неожиданных ошибках» (unexpected errors) при генерации в первые часы после релиза, Вес Рот остается крайне воодушевленным . По его мнению, Sora действительно устанавливает новый стандарт качества в индустрии, хотя и не является безошибочной.
Ведущий делает важный вывод о «выходе годного контента»: феноменальные ролики, которые OpenAI показывала в анонсах, не являются «одним на миллион» . По оценке Рота, примерно каждое 10-е или 20-е видео, созданное обычным пользователем, получается по-настоящему качественным и фотореалистичным . Он советует пользователям подождать несколько дней, пока спадет первая волна ажиотажа, чтобы инструменты редактирования и сложные функции вроде раскадровки начали работать стабильнее .