Маркес Браунли: «ИИ-видео изменят мир контента навсегда»

Marques Brownlee 9,2 млн 12 мин 6 мин 16.02.2024
Главное

Сфера генеративного искусственного интеллекта совершила очередной фундаментальный прорыв, практически стёрший грань между виртуальным и полностью смоделированным видеоконтентом. Известный технологический блогер Маркес Браунли в своём детальном анализе разбирает новейшую нейросеть Sora от компании OpenAI, способную создавать фотореалистичные минутные ролики исключительно по текстовому описанию. По мнению автора видео, стремительная эволюция этой технологии несёт в себе как колоссальные возможности для коммерческого производства, так и беспрецедентные экзистенциальные угрозы для интернет-безопасности и медиарынка.

🎬 Эпоха «Sora»: Новый прорыв в генерации видео 0:01

Индустрия генеративного ИИ переживает момент, аналогичный появлению ChatGPT и графического движка Dall-E. Маркес Браунли предлагает вспомнить, какими были ИИ-видео всего год назад, приводя в пример знаменитый вирусный ролик, в котором сгенерированный Уилл Смит крайне неестественно и пугающе ест спагетти. В то время у умов технологического сообщества преобладало ложное чувство безопасности: казалось, что до создания убедительного видеоконтента искусственному интеллекту ещё очень далеко.

Ситуация кардинально изменилась, когда глава OpenAI Сэм Альтман анонсировал новую нейросетевую модель под названием Sora. Её ключевое отличие от предшественников заключается в том, что она не просто компилирует пиксели, а пытается выстроить глубокое понимание законов физики реального мира. По словам Браунли, чтобы выдать адекватный результат, Sora должна одновременно просчитывать огромное количество комплексных параметров:

Автор видео подчёркивает важный психологический аспект: когда человек заранее знает, что перед ним продукт работы нейросети, его мозг целенаправленно ищет изъяны и несоответствия. Однако обычный пользователь, лениво листающий ленту новостей и не подозревающий о подвохе, с высокой долей вероятности примет этот контент за чистую монету. При этом Браунли напоминает пугающую истину: текущая версия Sora — это худшее состояние данной технологии, отсюда она будет только развиваться.

🔍 Детальный разбор: От неонового Токио до щенков в снегу 2:02

В качестве доказательства беспрецедентного скачка технологий Маркес Браунли подробно разбирает несколько демонстрационных роликов с официального сайта OpenAI. Первым примером становится прогулка стильной женщины по вечерней токийской улице, залитой неоновым светом. Запрос (промпт) включал детальное описание одежды: чёрная кожаная куртка, длинное красное платье и чёрные сапоги. На Браунли этот ролик произвёл глубокое впечатление, поскольку модель смогла безупречно передать оттенки кожи, естественные движения, фактуру материалов и динамические отражения на мокром асфальте.

Тем не менее при детальном покадровом рассмотрении «артефакты» всё ещё заметны:

Второй пример — видео с белым винтажным внедорожником, который на большой скорости мчится по крутой грунтовой дороге. Браунли отмечает, что из-за идеальной, монолитной стабилизации кадра это видео слегка напоминает высокобюджетную компьютерную игру, но картинка всё равно выглядит абсолютно применимой для коммерческих целей.

Особый восторг у ведущего вызвал ролик со щенками золотистого ретривера, играющими в сугробах. ИИ удалось невероятно правдоподобно передать физику пушистой шерсти, движения ушей и то, как хлопья снега разлетаются в замедленной съёмке (slow-motion). Хотя Браунли признаёт, что OpenAI продемонстрировала лучшие, тщательно отобранные примеры генерации без последующего редактирования, общая скорость прогресса ИИ-моделей выглядит ошеломляюще.

👤 Преодолевая «зловещую долину»: Люди, которых не существует 4:02

Ещё недавно даже продвинутая графическая нейросеть Dall-E 3 при создании реалистичных портретов людей допускала грубые ошибки в анатомии человеческих рук или ушей. Sora же делает уверенный шаг к преодолению эффекта «зловещей долины». Автор канала анализирует сгенерированный ролик с молодым человеком лет двадцати, который сидит на облаке и читает книгу. Маркес Браунли заявляет, что этот персонаж выглядит гораздо реалистичнее и живее, чем цифровые аватары Apple Personas, хотя этот парень полностью выдуман компьютером от начала и до конца. Текстура ткани на его рубашке, тени, мимика и движение волос поражают детализацией, несмотря на то, что физика переворачивания страниц книги выглядит странно.

Ещё более убедительным Браунли называет симуляцию кинематографического трейлера о 30-летнем космонавте в вязаном мотоциклетном шлеме, снятого на 35-миллиметровую плёнку в соляной пустыне. Качество проработки шерстяных ниток шлема, наложенное поверх кадра плёночное зерно и общая композиция делают это видео одним из самых убедительных примеров генерации, что когда-либо видел блогер. Параллельно Сэм Альтман в социальной сети Twitter (X) в реальном времени генерирует ролики по случайным запросам пользователей, доказывая, что система действительно работает «на лету».

⚠️ Риски дезинформации и крах индустрии стокового видео 5:56

Способность Sora создавать неотличимые от реальности кадры вызывает у Маркеса Браунли серьёзные опасения. По его мнению, в год важных политических выборов в США и на фоне общей уязвимости интернет-пространства, появление столь мощного инструмента выглядит откровенно пугающе и небезопасно. Люди, не ищущие подвоха, легко поверят в любой сфабрикованный видеоряд.

С другой стороны, технология моментально нашла идеальную нишу — производство стоковых видеоматериалов для презентаций, рекламы и инфопродуктов. В качестве примера приводится кадр с дрона, снимающий океанские волны у побережья Биг-Сюр. Блогер признаётся, что если бы он увидел этот ролик в соцсетях, он бы просто похвалил оператора за отличный кадр, даже не задумавшись об ИИ.

Такой тектонический сдвиг влечёт за собой серьёзные экономические последствия для медиаиндустрии:

Маркес задаётся вопросом, как скоро мы увидим коммерческую рекламу, YouTube-ролик или даже полноценный фильм, полностью созданный искусственным интеллектом. Учитывая, что от «кринжового» спагетти-видео до фотореализма Sora прошёл всего один год, этот момент может наступить гораздо раньше, чем кажется.

🛠️ «Глюки» физики и изъяны, которые пока остаются 8:09

Разработчики из OpenAI не скрывают текущих недостатков своей модели и открыто публикуют неудачные дубли на своём сайте. В настоящее время Sora остаётся закрытым инструментом и находится в руках так называемых «редтимеров» (red teamers) — специалистов, которые намеренно тестируют систему на прочность и пытаются её сломать, а также в руках узкого круга доверенных креаторов.

В ходе этих тестов было обнаружено множество специфических багов ИИ, связанных с пониманием пространства:

🔮 Будущее контента и экзистенциальные вопросы 9:55

Резюмируя свои впечатления, Маркес Браунли приходит к выводу, что Sora станет одновременно и крайне полезным бизнес-инструментом, и опасным оружием для введения людей в заблуждение. В качестве защитной меры OpenAI интегрирует цифровой водяной знак в угол каждого сгенерированного видео, однако блогер резонно отмечает, что его всегда можно банально кадрировать и обрезать.

По мнению автора, разработчикам придётся внедрить жесточайшие протоколы безопасности, превосходящие ограничения Dall-E. В частности, система должна блокировать возможность генерации образов реальных людей, особенно политиков в предвыборный период.

В финале Браунли задаётся глубоким экзистенциальным вопросом: если Sora обучается исключительно на массиве видеоданных, когда-либо созданных человечеством, способна ли она на подлинную инновацию и творчество, или же она обречена лишь виртуозно копировать и комбинировать человеческие идеи? Ответа на этот вопрос пока нет, но техноблогер иронично предлагает встретиться через год, чтобы вместе посмеяться над тем, какими несовершенными и «глючными» казались нам волки и руки в первой версии Sora.

💬 Цитаты

«Это одновременно действительно впечатляет и действительно пугает в одно и то же время.»

Маркес Браунли 0:01

«Просто помните: это худшее состояние, в котором данная технология когда-либо будет находиться.»

Маркес Браунли 2:02

«Логически подумайте, зачем кому-то платить за съемки дома на скалах, если можно сгенерировать это бесплатно?»

Маркес Браунли 11:01
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Sora
Нейросетевая модель от компании OpenAI, преобразующая текстовые описания в реалистичные видеоролики.
Зловещая долина
Психологический эффект, при котором искусственный объект, выглядящий почти как человек, вызывает у наблюдателя отторжение и страх из-за мелких аномалий.
Редтимеры (Red teamers)
Группа специалистов по безопасности, имитирующая хакерские атаки и агрессивное тестирование для поиска уязвимостей в системе.
Промпт (Prompt)
Текстовый запрос или набор инструкций, подаваемый на вход нейросети для получения желаемого результата.
📊 Цифры
🗓 Хронология
  1. 2023 год Появление вирусного, низкокачественного ИИ-видео с Уиллом Смитом, поедающим спагетти.
  2. Февраль 2024 года Официальный анонс нейросети Sora от OpenAI и демонстрация первых феноменальных результатов.
⚖️ Другая сторона
Искусственный интеллект Маркес Браунли OpenAI Sora Генеративное видео