# Уэс Рот: «ИИ-подруги становятся новой многомиллиардной индустрией»

Источник: https://www.youtube.com/watch?v=6s_4uzqkIGs
Канал: Wes Roth
Опубликовано: 21.04.2024

---

Индустрия ИИ-развлечений стремительно трансформируется: от простых чат-ботов до «ИИ-подруг», приносящих своим создателям пятизначные суммы ежемесячно, и нейросетей, генерирующих видео и музыку в реальном времени. В своем обзоре технологический аналитик Уэс Рот демонстрирует, как конвергенция различных ИИ-инструментов создает новый пласт медиаконтента, способного конкурировать с реальными людьми за внимание, доверие и даже эмоциональную привязанность аудитории.

## 💸 Экономика цифровых отношений: феномен «ИИ-подруг»
[[JUMP:02:56]]

По мнению Уэса Рота, сектор «ИИ-подруг» превращается в бизнес с потенциальной капитализацией более $1 млрд. Несмотря на то что массовое внимание к теме возникло на волне хайпа вокруг ChatGPT, специализированные приложения для виртуальных знакомств существовали задолго до появления современных больших языковых моделей.

*   **Масштабы рынка:** Компания Match Group (владелец Tinder, Hinge, OKCupid) на текущий момент оценивается в $9 млрд. Аналитики индустрии полагают, что создание аналогичных платформ с ИИ-персонажами в ближайшее время может принести доход, исчисляемый миллиардами долларов.
*   **Портрет пользователя:** Рот приводит анекдотичный, но показательный пример пользователя, который тратит до $10 000 в месяц на взаимодействие с ИИ-подругами. По словам таких пользователей, основным стимулом является возможность кастомизации личности, интересов и характера собеседника, что обеспечивает эмоциональный комфорт, который «успокаивает в конце дня».
*   **Технологический аспект:** Использование гиперреалистичных изображений, созданных ИИ, становится ключевым инструментом удержания внимания. Рот отмечает, что контент часто балансирует на грани допустимого (NSFW), чтобы максимизировать кликабельность и охваты.

## 🗣️ Революция «говорящих лиц» в реальном времени: VASA-1
[[JUMP:05:07]]

Одной из самых сложных задач для ИИ оставалась генерация естественной мимики, синхронизированной с речью. Однако разработка Microsoft Research Asia под названием **VASA-1** совершила прорыв в этой области.

*   **Технические возможности:** VASA-1 позволяет создавать lifelike-видео (реалистичные видео с говорящими лицами) на основе всего лишь одной статической фотографии и аудиозаписи. Модель не только идеально синхронизирует движения губ, но и воспроизводит нюансы мимики и естественные движения головы, создавая глубокую иллюзию присутствия.
*   **Управление параметрами:** Система построена на концепции «развязанного» латентного пространства (disentangled latent space), что позволяет независимо управлять положением головы, направлением взгляда и выражением лица,. Это напоминает профессиональные звуковые консоли, где каждое движение ползунка меняет конкретную частоту звука.
*   **Доступность:** Рот подчеркивает, что это не «теоретическая игрушка». По его словам, VASA-1 демонстрирует высокую эффективность и может работать на потребительском оборудовании (например, ПК с одной видеокартой Nvidia RTX 4090) в режиме реального времени,. Microsoft ограничивает публичный доступ к технологии из опасений относительно этических рисков и возможности злоупотребления.

## 🎨 Генеративное искусство и визуальные миры: EndlessDreams
[[JUMP:10:29]]

Технологии генерации видео переходят в фазу работы в реальном времени. В качестве примера Рот приводит проект **EndlessDreams**, созданный разработчиком Дэном Вудом на основе архитектуры Stable Diffusion.

*   **Real-time видео:** Автор проекта смог добиться генерации до 300 изображений в секунду, что на практике превращает нейросеть в «киностудию», управляемую голосом. Это позволяет пользователю на лету менять декорации, персонажей и действия в кадре (например, «коты на Марсе» или «Робот в поле цветов»).
*   **Перспективы:** Рот отмечает, что эти эксперименты — лишь начало пути к созданию интерактивных миров, которые будут генерироваться «на лету» в ответ на запросы или даже невербальные действия пользователя.

## 🎵 ИИ-музыка и новая виральность
[[JUMP:14:00]]

Сфера ИИ-музыки также демонстрирует «пугающее» качество. Рот приводит пример видеоклипа, созданного исключительно с помощью инструментов ИИ:

*   Текст: ChatGPT.
*   Музыка: Suno AI.
*   Визуальный ряд: Midjourney и Runway.

По словам ведущего, большинство слушателей уже не способны отличить ИИ-трек от профессиональной записи. Рот также обращает внимание на феномен виральных видео в социальных сетях: например, клипы, где персонаж игры (например, Minecraft) «бегает» по экрану, сопровождаемые переписками, которые превращены в цепляющие музыкальные композиции. Этот контент вызывает привыкание, и, как считает Рот, подобные методы «манипуляции» вниманием будут использоваться все активнее,.