# OpenAI Sora: полный разбор интерфейса, стоимости и технических сбоев на старте

Источник: https://www.youtube.com/watch?v=xRK6hjPwpKU
Канал: Wes Roth
Опубликовано: 10.12.2024

---

Компания OpenAI официально открыла доступ к своей революционной модели генерации видео Sora. Ведущий YouTube-канала Wes Roth провел детальное тестирование инструмента, разобрав стоимость генерации, технические возможности интерфейса и реальное качество получаемого контента — от фотореалистичных пейзажей до пугающих «галлюцинаций» нейросети.

## 🚀 Глобальный запуск и первые трудности
[[JUMP:0:00]]

Долгожданный релиз Sora сопровождался ажиотажем, который привел к временным техническим сбоям. По словам Веса Рота, запуск был «немного хаотичным»: OpenAI пришлось временно приостановить регистрацию новых платных аккаунтов из-за огромного наплыва пользователей, пытающихся одновременно генерировать видео [0:13]. 

На текущий момент в интерфейсе доступна живая лента (feed) пользовательских работ. Рот отмечает, что хотя OpenAI наверняка фильтрует контент, эта лента дает более честное представление о возможностях модели, чем ранее опубликованные «отполированные» примеры [0:25]. Ведущий подчеркивает, что среди работ встречаются как впечатляющие кадры, так и откровенно странные результаты: например, слон, убегающий от машины, или Ferrari, едущая задом наперед без видимых причин [1:09].

## ⚙️ Технические параметры и стоимость генерации
[[JUMP:1:50]]

Интерфейс Sora предлагает пользователям гибкие настройки для создания роликов. Основные технические возможности включают:

*   **Методы создания:** генерация по текстовому описанию (text-to-video) или на основе загруженного изображения (image-to-video) [1:50].
*   **Стилистические пресеты:** Cinematic (кинематографичный), Film Noir (нуар), Balloon World, Archival (архивный), Cardboard and Papercraft (бумажное моделирование) [2:04].
*   **Форматы:** горизонтальный (16:9), вертикальный (9:16) и квадратный (1:1) [2:04].
*   **Разрешение:** 480p, 720p и 1080p [2:20].
*   **Длительность:** фиксированные отрезки по 5, 10, 15 или 20 секунд [2:20].

Система работает на основе кредитов, и стоимость видео напрямую зависит от настроек. Ведущий приводит примеры расценок:

1.  5-секундное видео в разрешении 480p (один вариант) стоит **25 кредитов** [2:33].
2.  Увеличение длительности или количества вариаций пропорционально повышает цену.
3.  Тот же 5-секундный ролик, но в разрешении 1080p, обойдется уже в **200 кредитов** — Вес Рот называет это «огромным скачком» в стоимости [3:02].

## 🎨 Качество визуализации: от восторга до «кошмаров»
[[JUMP:3:15]]

В ходе тестирования Вес Рот проанализировал множество генераций, отметив как сильные, так и слабые стороны физического движка Sora. Среди удачных примеров он выделил сверхреалистичного краба на пляже и детальное изображение Наполеона Бонапарта в Египте [3:30]. Однако в случае с Наполеоном автор заметил характерную ошибку ИИ: голова одного из солдат была повернута на 180 градусов назад [3:30].

Особое внимание Рот уделил сложным запросам. Например, сцена, где лицо женщины состоит из множества движущихся пальцев и рассыпается в белую пыль, была исполнена на удивление точно для такой сложной задачи [3:44]. Также модель продемонстрировала способность корректно отображать текст: в одном из видео можно было четко прочитать рукописную формулу второго закона Ньютона [1:22].

Тем не менее, Вес Рот указывает на ряд проблем:

*   **Нарушение логики:** собаки, играющие в покер, у которых исчезают лапы при движении [13:46].
*   **Ошибки физики:** стены, которые становятся невидимыми, если зайти за них, или дверные ручки, направленные не в ту сторону [18:56].
*   **Сюрреализм:** Рот описывает некоторые видео как «материал для ночных кошмаров», упоминая ролик о «курорте внутри выброшенного на берег кита» [10:33] и пугающие кадры с цветами, растущими изо рта [12:54].

## 🔍 Особенности рендеринга и работы с отражениями
[[JUMP:15:43]]

Одной из самых впечатляющих черт Sora Вес Рот считает работу с отражениями. Он заметил необычную техническую деталь: часто основное изображение выглядит плавным (условно 30–60 кадров в секунду), в то время как отражения в воде или на очках кажутся более прерывистыми, как будто они отрендерены с частотой 5–10 кадров в секунду [16:09]. 

Рот предполагает, что OpenAI может использовать «техническую хитрость» — отдельную модель для просчета отражений, подобно тому как в экспериментальной нейросетевой версии игры DOOM от Google DeepMind разные модели отвечали за игровой мир и элементы интерфейса (HUD) [17:52]. Несмотря на разницу в частоте кадров, сами отражения выглядят крайне достоверно, правильно учитывая тени зданий и сложные геометрические объекты, такие как оконные решетки [18:29].

## 🛠️ Продвинутые инструменты: Storyboard и Recut
[[JUMP:5:31]]

Sora — это не просто генератор «одной кнопкой», а инструмент с функциями редактирования. 

*   **Storyboard (Раскадровка):** позволяет описывать последовательность сцен. Например, можно задать, что первые 2.5 секунды мы видим пиратский корабль над городом, а затем пират прыгает с него с парашютом [5:45]. 
*   **Recut (Перемонтаж):** дает возможность изменять уже готовое видео — менять его соотношение сторон, разрешение или накладывать новые стилистические фильтры (например, превратить современную сцену в архивную съемку) [7:10].
*   **Loop и Remix:** функции зацикливания видео и смешивания нескольких роликов в один [23:21].

Впрочем, Вес Рот признал, что во время его тестов функция Recut часто выдавала ошибки и не всегда корректно применяла выбранные пресеты [21:24]. Он связывает это с текущей перегрузкой серверов.

## 📈 Вердикт: стоит ли Sora своих денег?
[[JUMP:20:43]]

Несмотря на частые сообщения об «неожиданных ошибках» (unexpected errors) при генерации в первые часы после релиза, Вес Рот остается крайне воодушевленным [21:48]. По его мнению, Sora действительно устанавливает новый стандарт качества в индустрии, хотя и не является безошибочной. 

Ведущий делает важный вывод о «выходе годного контента»: феноменальные ролики, которые OpenAI показывала в анонсах, не являются «одним на миллион» [24:41]. По оценке Рота, примерно каждое 10-е или 20-е видео, созданное обычным пользователем, получается по-настоящему качественным и фотореалистичным [24:41]. Он советует пользователям подождать несколько дней, пока спадет первая волна ажиотажа, чтобы инструменты редактирования и сложные функции вроде раскадровки начали работать стабильнее [22:28].