Индустрия ИИ-развлечений стремительно трансформируется: от простых чат-ботов до «ИИ-подруг», приносящих своим создателям пятизначные суммы ежемесячно, и нейросетей, генерирующих видео и музыку в реальном времени. В своем обзоре технологический аналитик Уэс Рот демонстрирует, как конвергенция различных ИИ-инструментов создает новый пласт медиаконтента, способного конкурировать с реальными людьми за внимание, доверие и даже эмоциональную привязанность аудитории.
💸 Экономика цифровых отношений: феномен «ИИ-подруг» 2:56
По мнению Уэса Рота, сектор «ИИ-подруг» превращается в бизнес с потенциальной капитализацией более $1 млрд. Несмотря на то что массовое внимание к теме возникло на волне хайпа вокруг ChatGPT, специализированные приложения для виртуальных знакомств существовали задолго до появления современных больших языковых моделей.
- Масштабы рынка: Компания Match Group (владелец Tinder, Hinge, OKCupid) на текущий момент оценивается в $9 млрд. Аналитики индустрии полагают, что создание аналогичных платформ с ИИ-персонажами в ближайшее время может принести доход, исчисляемый миллиардами долларов.
- Портрет пользователя: Рот приводит анекдотичный, но показательный пример пользователя, который тратит до $10 000 в месяц на взаимодействие с ИИ-подругами. По словам таких пользователей, основным стимулом является возможность кастомизации личности, интересов и характера собеседника, что обеспечивает эмоциональный комфорт, который «успокаивает в конце дня».
- Технологический аспект: Использование гиперреалистичных изображений, созданных ИИ, становится ключевым инструментом удержания внимания. Рот отмечает, что контент часто балансирует на грани допустимого (NSFW), чтобы максимизировать кликабельность и охваты.
🗣️ Революция «говорящих лиц» в реальном времени: VASA-1 5:07
Одной из самых сложных задач для ИИ оставалась генерация естественной мимики, синхронизированной с речью. Однако разработка Microsoft Research Asia под названием VASA-1 совершила прорыв в этой области.
- Технические возможности: VASA-1 позволяет создавать lifelike-видео (реалистичные видео с говорящими лицами) на основе всего лишь одной статической фотографии и аудиозаписи. Модель не только идеально синхронизирует движения губ, но и воспроизводит нюансы мимики и естественные движения головы, создавая глубокую иллюзию присутствия.
- Управление параметрами: Система построена на концепции «развязанного» латентного пространства (disentangled latent space), что позволяет независимо управлять положением головы, направлением взгляда и выражением лица,. Это напоминает профессиональные звуковые консоли, где каждое движение ползунка меняет конкретную частоту звука.
- Доступность: Рот подчеркивает, что это не «теоретическая игрушка». По его словам, VASA-1 демонстрирует высокую эффективность и может работать на потребительском оборудовании (например, ПК с одной видеокартой Nvidia RTX 4090) в режиме реального времени,. Microsoft ограничивает публичный доступ к технологии из опасений относительно этических рисков и возможности злоупотребления.
🎨 Генеративное искусство и визуальные миры: EndlessDreams 10:29
Технологии генерации видео переходят в фазу работы в реальном времени. В качестве примера Рот приводит проект EndlessDreams, созданный разработчиком Дэном Вудом на основе архитектуры Stable Diffusion.
- Real-time видео: Автор проекта смог добиться генерации до 300 изображений в секунду, что на практике превращает нейросеть в «киностудию», управляемую голосом. Это позволяет пользователю на лету менять декорации, персонажей и действия в кадре (например, «коты на Марсе» или «Робот в поле цветов»).
- Перспективы: Рот отмечает, что эти эксперименты — лишь начало пути к созданию интерактивных миров, которые будут генерироваться «на лету» в ответ на запросы или даже невербальные действия пользователя.
🎵 ИИ-музыка и новая виральность 14:00
Сфера ИИ-музыки также демонстрирует «пугающее» качество. Рот приводит пример видеоклипа, созданного исключительно с помощью инструментов ИИ:
- Текст: ChatGPT.
- Музыка: Suno AI.
- Визуальный ряд: Midjourney и Runway.
По словам ведущего, большинство слушателей уже не способны отличить ИИ-трек от профессиональной записи. Рот также обращает внимание на феномен виральных видео в социальных сетях: например, клипы, где персонаж игры (например, Minecraft) «бегает» по экрану, сопровождаемые переписками, которые превращены в цепляющие музыкальные композиции. Этот контент вызывает привыкание, и, как считает Рот, подобные методы «манипуляции» вниманием будут использоваться все активнее,.