В мире генеративного искусственного интеллекта произошло событие, сопоставимое по значимости с выходом ChatGPT: компания OpenAI представила Sora 2. Ведущий YouTube-канала Wes Roth подробно разобрал возможности новой модели, которая не просто улучшила качество видео, но и представила революционную функцию — «Cameo», позволяющую пользователям интегрировать свои цифровые аватары в любые сценарии.
🚀 Анонс Sora 2: «Момент ChatGPT» для видео 0:42
OpenAI представила Sora 2 и сопутствующее приложение Sora App внезапно, объявив о прямой трансляции всего за час до её начала . Сэм Олтмен, генеральный директор OpenAI, в своём блоге назвал этот релиз «моментом ChatGPT для творчества» . По его мнению, новая модель в сочетании с удобным продуктом для создания и обмена видео спровоцирует «Кембрийский взрыв» в креативной индустрии .
Wes Roth отмечает, что Sora 2 демонстрирует гигантский скачок в реализме, физике движений и понимании контекста . Одной из ключевых особенностей стала нативная поддержка звука: теперь каждое сгенерированное видео автоматически сопровождается соответствующим аудиорядом, будь то шум мотора или музыка .
👤 Функция Cameo: персональные цифровые двойники 2:00
Самым обсуждаемым нововведением стала функция Cameo. Она позволяет загрузить в систему образ реального человека (цифрового двойника) и поместить его в любой сгенерированный сценарий с сохранением внешности, голоса и мимики .
В демонстрационных роликах сотрудники OpenAI показали следующие возможности:
- Сэм Олтмен в разных амплуа: глава компании предстает то в роли игрока в Fortnite, празднующего победу , то в образе персонажа аниме в стиле студии Ghibli .
- Консистентность персонажа: Wes Roth обращает внимание, насколько точно передаются детали, например, характерная обувь Олтмена или его манера подергиваться во время напряженной игры .
- Социальное взаимодействие: в приложении реализованы элементы социальной сети — у каждого пользователя (или его «камео») есть профиль и подписчики .
Автор видео подчеркивает, что для создания собственного Cameo на данный момент требуется мобильное приложение Sora для iOS . Wes Roth иронизирует, что это похоже на «заговор» с целью продать больше iPhone, так как даже обладатели инвайт-кодов на Android или десктоп пока ограничены в создании своих аватаров .
🎭 Разбор визуальных эффектов и физики 5:09
Техническое совершенство Sora 2 демонстрируется через сложные каскадные сцены. Одним из примеров стал «сон» сотрудника OpenAI, где он сначала мчится на Lamborghini на закате, затем оказывается на спине дракона, отражающегося в лобовом стекле машины, и в итоге падает на лодку .
Wes Roth выделяет несколько аспектов:
- Световые эффекты: идеальная передача «золотого часа» и реалистичные отражения на поверхностях .
- Взаимодействие с объектами: в сцене с теннисными мячами физика столкновений выглядит безупречно; мяч реалистично отскакивает от руки персонажа .
- Синхронизация звука: в ролике с пластилиновой анимацией звуки оркестра четко совпадают с движениями смычков маленьких музыкантов .
- Стилизация: модель способна на 100% имитировать эстетику аниме 90-х, которую практически невозможно отличить от работ профессиональных студий .
⚠️ Риски, «ИИ-шлак» и этические барьеры 16:43
Несмотря на восторг, команда OpenAI и сам Сэм Олтмен выражают беспокойство (трепет) относительно последствий массового доступа к такой технологии. Основные риски, упомянутые в блоге Олтмена:
- Аддиктивность: ИИ-видео может вызывать сильное привыкание .
- Кибербуллинг: возможность поместить любого человека в унизительный сценарий .
- Алгоритмический «шлак» (AI slop): риск того, что ленты пользователей заполнятся бесконечным потоком низкокачественного, оптимизированного под удержание внимания видеоконтента .
Для борьбы с этим OpenAI планирует в течение следующих шести месяцев оптимизировать алгоритмы не под «время просмотра», а под «долгосрочную удовлетворенность пользователя» . Если проблему деградации контента не удастся решить, Олтмен допускает возможность прекращения работы сервиса .
🧪 Личный опыт и первые тесты 15:11
В ходе записи ролика Wes Roth получил инвайт-код от пользователя Catherine в сети X (ранее Twitter) и смог протестировать систему лично . Его первым экспериментом стал запрос: «Сэм Олтмен злится из-за правил Dungeons & Dragons» . Результат поразил автора — модель не просто создала изображение Олтмена, но и заставила его цитировать конкретную страницу (193) «Книги игрока», аргументируя невозможность использования заклинаний Fireball и Shield в один ход .
В заключение Wes Roth отмечает, что OpenAI стремится сделать Sora частью более глобальной цели — помощи пользователям в достижении их жизненных задач, будь то фитнес, бизнес или социальные связи, хотя признает, что предотвратить превращение платформы в бесконечную ленту для «думскроллинга» будет крайне сложно .