Маркес Браунли оценил ИИ-трек с голосом рэпера Jay-Z

Генеративный искусственный интеллект развивается стремительными темпами, заставляя человечество переосмыслить привычные границы между реальным и цифровым контентом. Известный технологический блогер Маркес Браунли делится своей теорией о двух уровнях развития нейросетей, анализируя пугающе точную подделку голоса знаменитого рэпера Jay-Z. На примере одного музыкального трека он исследует, почему современные технологии совершают переход от забавных интернет-фейков к глубокому, неотличимому от реальности реализму.

🧠 Теория двух уровней: от невнимательности к полному обману 0:01

Маркес Браунли выдвигает собственную теорию о том, как именно искусственный интеллект адаптируется под восприятие человека. По его словам, главная сила современного ИИ заключается в том, что по мере своего совершенствования он становится всё более похож на человеческий разум. Технологии уже способны успешно проходить тесты, решать сложные аналитические задачи и распознавать скрытые паттерны. Однако Браунли предлагает разделять успехи именно генеративного ИИ на два принципиально разных уровня успеха.

Первый уровень (Level 1), по мнению ведущего, — это ситуации, когда сгенерированный контент обманывает человека исключительно из-за его личной невнимательности или отсутствия скепсиса. В качестве примера блогер приводит знаменитую вирусную фотографию Папы Римского в белом дизайнерском пуховике, которую многие пользователи просто пролистали в своей ленте соцсетей, не заподозрив подвоха. Браунли отмечает, что как только человеку прямо указывают на участие нейросети, его критический взгляд мгновенно находит артефакты: неестественные пальцы рук или размытые детали одежды. К этому же уровню автор видео относит фейковые изображения ареста Дональда Трампа, а также рутинные тексты от чат-ботов вроде ChatGPT, Bard или Bing.

Второй уровень (Level 2) — это гораздо более глубокий и тревожный рубеж технологического развития. По определению Браунли, на этом этапе человек заранее и абсолютно точно знает, что перед ним находится продукт работы искусственного интеллекта, но технология всё равно умудряется его обмануть. Блогер подчеркивает, что именно этот уровень начинает по-настоящему пугать, поскольку стирает грань между осознанным восприятием подделки и искренним удовольствием от неё.

🎤 Феномен виртуального Jay-Z: как ИИ покоряет музыку 2:25

В качестве яркой иллюстрации «второго уровня» Маркес Браунли приводит реальный случай из своей практики. Несколько недель назад он получил электронное письмо от музыканта Джейми Джонса (в транскрипте также упоминается как Джей Мадерос). Артист прислал новый трек — музыкальную коллаборацию, в которой неизвестный исполнитель читает рэп вместе с легендарным Jay-Z. Уникальность композиции заключалась в том, что голос Jay-Z был полностью смоделирован нейросетью.

Музыканты долго сомневались, стоит ли вообще выпускать подобный материал в свет и этично ли это. Прослушав фрагмент композиции, Браунли пришел к выводу, что звучание оказалось невероятно достоверным. По мнению блогера, голос виртуального близнеца звучит настолько качественно, что даже при полном понимании искусственной природы трека слушатель продолжает получать удовольствие и воспринимать это как реальные, талантливые куплеты от Jay-Z.

При этом технологический процесс создания подобного контента всё ещё далек от простой автоматизации. Блогер со ссылкой на автора трека раскрывает внутренние детали производства:

Текст песни был полностью написан человеком еще до того, как нейросетевые инструменты для генерации голоса стали общедоступными.
Использованные ИИ-инструменты не были идеальными решениями формата «нажми одну кнопку и получи результат» — создателям пришлось пройти через множество слоев ручной обработки.
Особую сложность вызвали рифмы со словами «feeling», «ceiling» и «appealing». Нейросеть упорно произносила их с искаженной, неестественной интонацией, из-за чего создателям пришлось перезапускать алгоритм генерации десятки раз, экспериментируя с методами.

Тем не менее, финальный результат оказался настолько убедительным, что это, по мнению Браунли, открывает огромный «ящик Пандоры» для всей музыкальной индустрии.

🚀 Будущее технологий и поиск защиты 4:24

Самым важным и парадоксальным аспектом текущего состояния индустрии Маркес Браунли считает тот факт, что сегодняшние нейросети находятся в своей худшей форме за всю последующую историю. Технологии будут неизбежно развиваться, и конечная цель каждого крупного разработчика — вывести свой продукт на полноценный «второй уровень».

Блогер прогнозирует эволюцию сразу нескольких технологических направлений:

Разговорные чат-боты стремятся к тому, чтобы стать полностью неотличимыми от реальных людей в процессе живого повседневного диалога.
Генераторы изображений эволюционируют до создания коммерчески применимых картин и рисунков, не уступающих работам человеческих художников.
Беспилотные автомобили активно обучаются полноценному и безопасному сосуществованию с водителями-людьми на общих дорогах общего пользования.

Отвечая на вопрос о возможных методах борьбы с бесконтрольным распространением дипфейков, Браунли констатирует, что готового ответа на данный момент не существует из-за новизны технологий. Блогер выражает скепсис по поводу эффективности жесткого государственного регулирования или полных запретов на разработку ИИ.

Вместо этого он видит выход в параллельном развитии специализированных инструментов, предназначенных исключительно для детектирования ИИ-контента. По мнению Браунли, человечеству придется оперативно научиться развертывать и применять эти защитные алгоритмы в тех сферах, где цифровая подделка может нанести реальный жизненный вред.