Сфера генеративного искусственного интеллекта совершила очередной фундаментальный прорыв, практически стёрший грань между виртуальным и полностью смоделированным видеоконтентом. Известный технологический блогер Маркес Браунли в своём детальном анализе разбирает новейшую нейросеть Sora от компании OpenAI, способную создавать фотореалистичные минутные ролики исключительно по текстовому описанию. По мнению автора видео, стремительная эволюция этой технологии несёт в себе как колоссальные возможности для коммерческого производства, так и беспрецедентные экзистенциальные угрозы для интернет-безопасности и медиарынка.
🎬 Эпоха «Sora»: Новый прорыв в генерации видео 0:01
Индустрия генеративного ИИ переживает момент, аналогичный появлению ChatGPT и графического движка Dall-E. Маркес Браунли предлагает вспомнить, какими были ИИ-видео всего год назад, приводя в пример знаменитый вирусный ролик, в котором сгенерированный Уилл Смит крайне неестественно и пугающе ест спагетти. В то время у умов технологического сообщества преобладало ложное чувство безопасности: казалось, что до создания убедительного видеоконтента искусственному интеллекту ещё очень далеко.
Ситуация кардинально изменилась, когда глава OpenAI Сэм Альтман анонсировал новую нейросетевую модель под названием Sora. Её ключевое отличие от предшественников заключается в том, что она не просто компилирует пиксели, а пытается выстроить глубокое понимание законов физики реального мира. По словам Браунли, чтобы выдать адекватный результат, Sora должна одновременно просчитывать огромное количество комплексных параметров:
- Взаимодействие различных текстур и сложных материалов между собой.
- Отображение корректных световых отражений на глянцевых и зеркальных поверхностях.
- Поведение физических объектов и симуляцию их движения в динамике времени.
Автор видео подчёркивает важный психологический аспект: когда человек заранее знает, что перед ним продукт работы нейросети, его мозг целенаправленно ищет изъяны и несоответствия. Однако обычный пользователь, лениво листающий ленту новостей и не подозревающий о подвохе, с высокой долей вероятности примет этот контент за чистую монету. При этом Браунли напоминает пугающую истину: текущая версия Sora — это худшее состояние данной технологии, отсюда она будет только развиваться.
🔍 Детальный разбор: От неонового Токио до щенков в снегу 2:02
В качестве доказательства беспрецедентного скачка технологий Маркес Браунли подробно разбирает несколько демонстрационных роликов с официального сайта OpenAI. Первым примером становится прогулка стильной женщины по вечерней токийской улице, залитой неоновым светом. Запрос (промпт) включал детальное описание одежды: чёрная кожаная куртка, длинное красное платье и чёрные сапоги. На Браунли этот ролик произвёл глубокое впечатление, поскольку модель смогла безупречно передать оттенки кожи, естественные движения, фактуру материалов и динамические отражения на мокром асфальте.
Тем не менее при детальном покадровом рассмотрении «артефакты» всё ещё заметны:
- Мужчина на заднем плане двигается странно, словно скользит по воздуху, а не идёт ногами.
- Частота кадров и физика отражений в лужах почему-то значительно ниже, чем у остальной сцены.
- Общее движение виртуальной камеры кажется слегка нестабильным и выдаёт искусственную природу ролика.
Второй пример — видео с белым винтажным внедорожником, который на большой скорости мчится по крутой грунтовой дороге. Браунли отмечает, что из-за идеальной, монолитной стабилизации кадра это видео слегка напоминает высокобюджетную компьютерную игру, но картинка всё равно выглядит абсолютно применимой для коммерческих целей.
Особый восторг у ведущего вызвал ролик со щенками золотистого ретривера, играющими в сугробах. ИИ удалось невероятно правдоподобно передать физику пушистой шерсти, движения ушей и то, как хлопья снега разлетаются в замедленной съёмке (slow-motion). Хотя Браунли признаёт, что OpenAI продемонстрировала лучшие, тщательно отобранные примеры генерации без последующего редактирования, общая скорость прогресса ИИ-моделей выглядит ошеломляюще.
👤 Преодолевая «зловещую долину»: Люди, которых не существует 4:02
Ещё недавно даже продвинутая графическая нейросеть Dall-E 3 при создании реалистичных портретов людей допускала грубые ошибки в анатомии человеческих рук или ушей. Sora же делает уверенный шаг к преодолению эффекта «зловещей долины». Автор канала анализирует сгенерированный ролик с молодым человеком лет двадцати, который сидит на облаке и читает книгу. Маркес Браунли заявляет, что этот персонаж выглядит гораздо реалистичнее и живее, чем цифровые аватары Apple Personas, хотя этот парень полностью выдуман компьютером от начала и до конца. Текстура ткани на его рубашке, тени, мимика и движение волос поражают детализацией, несмотря на то, что физика переворачивания страниц книги выглядит странно.
Ещё более убедительным Браунли называет симуляцию кинематографического трейлера о 30-летнем космонавте в вязаном мотоциклетном шлеме, снятого на 35-миллиметровую плёнку в соляной пустыне. Качество проработки шерстяных ниток шлема, наложенное поверх кадра плёночное зерно и общая композиция делают это видео одним из самых убедительных примеров генерации, что когда-либо видел блогер. Параллельно Сэм Альтман в социальной сети Twitter (X) в реальном времени генерирует ролики по случайным запросам пользователей, доказывая, что система действительно работает «на лету».
⚠️ Риски дезинформации и крах индустрии стокового видео 5:56
Способность Sora создавать неотличимые от реальности кадры вызывает у Маркеса Браунли серьёзные опасения. По его мнению, в год важных политических выборов в США и на фоне общей уязвимости интернет-пространства, появление столь мощного инструмента выглядит откровенно пугающе и небезопасно. Люди, не ищущие подвоха, легко поверят в любой сфабрикованный видеоряд.
С другой стороны, технология моментально нашла идеальную нишу — производство стоковых видеоматериалов для презентаций, рекламы и инфопродуктов. В качестве примера приводится кадр с дрона, снимающий океанские волны у побережья Биг-Сюр. Блогер признаётся, что если бы он увидел этот ролик в соцсетях, он бы просто похвалил оператора за отличный кадр, даже не задумавшись об ИИ.
Такой тектонический сдвиг влечёт за собой серьёзные экономические последствия для медиаиндустрии:
- Дроны и их пилоты больше не понадобятся для стандартных съёмок пейзажей.
- Фотографы и видеографы лишатся доходов от лицензирования своего контента, поскольку компаниям будет проще и дешевле сгенерировать ролик по подписке.
- Исчезнет необходимость в аренде дорогого и редкого реквизита. Например, Sora способна безупречно сгенерировать стену из старых громоздких телевизоров с правильными отражениями окружения.
- Упростится создание исторического контента: нейросеть способна убедительно воссоздать эпоху золотой лихорадки в Калифорнии, что может послужить готовой открывающей сценой для вестерна.
Маркес задаётся вопросом, как скоро мы увидим коммерческую рекламу, YouTube-ролик или даже полноценный фильм, полностью созданный искусственным интеллектом. Учитывая, что от «кринжового» спагетти-видео до фотореализма Sora прошёл всего один год, этот момент может наступить гораздо раньше, чем кажется.
🛠️ «Глюки» физики и изъяны, которые пока остаются 8:09
Разработчики из OpenAI не скрывают текущих недостатков своей модели и открыто публикуют неудачные дубли на своём сайте. В настоящее время Sora остаётся закрытым инструментом и находится в руках так называемых «редтимеров» (red teamers) — специалистов, которые намеренно тестируют систему на прочность и пытаются её сломать, а также в руках узкого круга доверенных креаторов.
В ходе этих тестов было обнаружено множество специфических багов ИИ, связанных с пониманием пространства:
- Нарушение геометрии объектов: в ролике со стаей волчат они начинают буквально проходить сквозь тела друг друга и внезапно материализоваться из воздуха.
- Абсурдная физика движений: в тестовом видео мужчина бежит по беговой дорожке... задом наперёд, при этом сама дорожка движется в противоположную сторону.
- Проблемы с анатомией конечностей: Маркес подробно разбирает пример с празднованием дня рождения пожилой женщины. Если присмотреться к рукам гостей и самой именинницы, пальцы начинают мутировать, сливаться и менять форму при каждом движении, что выглядит жутко. Дополнительно ИИ путает направление ветра, из-за чего пламя свечей на торте отклоняется в разные стороны вопреки законам природы.
🔮 Будущее контента и экзистенциальные вопросы 9:55
Резюмируя свои впечатления, Маркес Браунли приходит к выводу, что Sora станет одновременно и крайне полезным бизнес-инструментом, и опасным оружием для введения людей в заблуждение. В качестве защитной меры OpenAI интегрирует цифровой водяной знак в угол каждого сгенерированного видео, однако блогер резонно отмечает, что его всегда можно банально кадрировать и обрезать.
По мнению автора, разработчикам придётся внедрить жесточайшие протоколы безопасности, превосходящие ограничения Dall-E. В частности, система должна блокировать возможность генерации образов реальных людей, особенно политиков в предвыборный период.
В финале Браунли задаётся глубоким экзистенциальным вопросом: если Sora обучается исключительно на массиве видеоданных, когда-либо созданных человечеством, способна ли она на подлинную инновацию и творчество, или же она обречена лишь виртуозно копировать и комбинировать человеческие идеи? Ответа на этот вопрос пока нет, но техноблогер иронично предлагает встретиться через год, чтобы вместе посмеяться над тем, какими несовершенными и «глючными» казались нам волки и руки в первой версии Sora.