Исследователь Марк Ледвич опроверг миф о радикализации алгоритмами YouTube

Существует устойчивое мнение, что алгоритмы рекомендаций YouTube затягивают пользователей в «кроличью нору» экстремизма, постепенно предлагая всё более радикальный контент. Исследователь и программист Марк Ледвич (Mark Ledwich) решил проверить эту гипотезу с помощью жестких данных и пришел к противоположным выводам. В интервью блогеру и специалисту по ИИ Яннику Кильхеру (Yannic Kilcher) он рассказал, как на самом деле работают алгоритмы платформы и почему популярный медийный нарратив о радикализации не выдерживает научной критики.

🧐 Предыстория: миф о «кроличьей норе» радикализации 0:00

Янник Кильхер отмечает, что тема влияния рекомендательных систем на общество исследуется уже давно, и в медиа укоренился тезис о существовании «пайплайна радикализации» (radicalization pipeline). Согласно этой гипотезе, алгоритмы целенаправленно уводят пользователя от умеренного контента к ультраправым взглядам. Однако, как подчеркивает ведущий, авторы предыдущих резонансных исследований часто фиксировали движение пользователей только в одну сторону, полностью игнорируя обратные потоки трафика.

Марк Ледвич по профессии является программистом, а не академическим ученым. К собственному расследованию его подтолкнула предвзятость, которую он заметил в отчетах СМИ и некоторых научных публикациях. По мнению Ледвича, многие авторы искали доказательства радикализации исключительно ради подтверждения собственных страхов перед ростом популизма, скатываясь в предвзятость подтверждения (confirmation bias). Вместо беспристрастного анализа они фиксировали переходы от центристов к ультраправым, предвзято называя это «заражением», но не изучали общую картину. Будучи инженером, Ледвич решил собрать массив данных и проанализировать реальные направления рекомендаций.

📊 Методология и тернистый путь сбора данных 12:35

Сбор данных оказался сложной технической задачей, поскольку YouTube системно ограничивает автоматический доступ к своей платформе. Марк Ледвич начал работу в ноябре 2018 года, используя официальный YouTube API. Чтобы обойти жесткие квоты на количество запросов, ему пришлось создать несколько API-ключей, что нарушало правила платформы. Кроме того, правила требовали удалять собранные данные каждые 30 дней. В октябре 2019 года YouTube заблокировал Ледвичу доступ из-за этих нарушений.

После блокировки исследователь переключился на прямой скрапинг (веб-парсинг) страниц YouTube. Этот метод имитирует поведение обычного пользователя. Однако платформа быстро распознает автоматические запросы и блокирует IP-адрес после нескольких сотен обращений. Для обхода ограничений Ледвич задействовал дорогостоящий прокси-сервис.

Полноценная работа системы устроена следующим образом:

Запросы туннелируются через реальные домашние интернет-соединения (например, провайдера AT&T) в США.
Это позволяет получить репрезентативную выборку рекомендаций для разных локаций.
Текущие расходы Ледвича на поддержание инфраструктуры составляют около $500 в месяц.
При этом его страница на Patreon приносит всего около $22 в месяц, что совершенно не покрывает затраты.

Для чистоты анализа в итоговой научной работе использовался массив данных, собранный за ноябрь и декабрь 2019 года, охватывающий более 400 тщательно классифицированных каналов.

🔄 Эффект «обратного трубопровода»: что показало исследование 4:13

Для визуализации и анализа собранных данных Ледвич разработал специальный интерактивный веб-сайт. На нем отображаются двусторонние потоки рекомендаций: слева показано, откуда каналы получают просмотры (инпрессии), а справа — куда алгоритм направляет зрителя дальше.

Анализ этих графов выявил неожиданную для медиа-среды картину. По мнению Ледвича, алгоритм работает в точности до наоборот по отношению к теории «кроличьей норы». Вместо радикализации он выполняет дерадикализирующую функцию, уводя пользователей от экстремального контента к мейнстриму.

В ходе демонстрации работы сайта были приведены конкретные примеры:

Fox News: Телеканал получает огромный внутренний трафик (36 млн инпрессий от самого себя) и активно обменивается рекомендациями с CNN.
The Daily Wire (канал Бена Шапиро): Находится правее Fox News. Вопреки мифу о радикализации, алгоритм чаще всего уводит зрителя с этого канала обратно на Fox News, то есть в сторону более умеренного контента.
Интеллектуальный дарквеб (IDW) и «Alt-light»: Группы, которые в других исследованиях называли «воротами в ультраправые», на самом деле отдают в 4 раза больше трафика умеренным каналам и контрольной группе, чем получают от них. По словам Ледвича, эти каналы буквально «выпускают пар» из радикальных сессий.
Ультраправые (Alt-right) и Белые идентитаристы: Безусловно, внутри этих групп существуют выраженные «пузыри фильтров» (filter bubbles), где каналы рекомендуют сами себя. Однако внешние рекомендации от них ведут не глубже в экстремизм, а распределяются в сторону партийных правых, центристов, либертарианцев и левых мейнстримных медиа.

📺 Доминирование мейнстрим-медиа и зачистка 2019 года 9:37

Важным открытием исследования стало жесткое разделение контента по типам медиа: мейнстримные СМИ (Mainstream media) и независимые авторы (YouTube creators). Данные показывают колоссальный искусственный перекос алгоритма в пользу крупных СМИ.

Ледвич обнаружил следующую закономерность: независимые YouTube-блогеры отдают почти половину (около 50%) своих рекомендательных показов крупным официальным СМИ. При этом сами мейнстрим-медиа практически полностью изолированы: они рекомендуют только друг друга и крайне редко ссылаются на независимых авторов. По мнению Янника Кильхера, такое поведение алгоритма легко объясняется коммерческими интересами: YouTube стремится быть привлекательным для рекламодателей (advertiser friendly), а крупные СМИ кажутся им более безопасной гаванью.

Временной анализ данных показал, что ситуация не всегда была одинаковой. В апреле 2019 года YouTube провел масштабное обновление алгоритмов, резко ограничив продвижение теорий заговора и «маргинальных» (fringe) каналов. До этой зачистки алгоритм был ближе к нейтральному состоянию, хотя, по утверждению Ледвича, он и тогда никогда не создавал целенаправленного эффекта «кроличьей норы» в пользу радикалов.

💬 Критика, анонимные пользователи и «диванные» эксперты 19:30

После публикации препринта работы Ледвич и Кильхер столкнулись с мощнейшей волной критики и нападок в социальных сетях, продолжавшейся несколько дней. Главным содержательным аргументом критиков стало то, что исследование собирало «анонимные» рекомендации (без авторизации в аккаунте), а не персонализированную выдачу реальных пользователей.

Ледвич признает это ограничение, однако считает его несущественным для макровыводов. По его мнению, если усреднить историю просмотров миллионов людей, персонализация на глобальном уровне сглаживается, приближаясь к показателям анонимной выдачи. Янник Кильхер соглашается с этим и добавляет, что критики обязаны сами доказать наличие качественного (а не просто количественного) различия, прежде чем объявлять это фатальным недостатком работы.

Кроме того, собеседники называют позицию многих критиков лицемерной и мотивированной. В качестве примера приводится журналистка Зейнеп Тюфекчи, которая публично высмеивала работу Ледвича, хотя её собственная резонансная статья в New York Times основывалась на данных платформы, собиравшей точно такие же анонимные рекомендации. Ледвич также иронизирует над поведением пользователей Twitter, которые призывали аудиторию «не читать статью самостоятельно, а дождаться мнения профильных экспертов».

В завершение Марк Ледвич отметил, что открыто признает допущенные им перегибы в личных публикациях на Medium и в Twitter, где он формулировал выводы более категорично и в «байесовском стиле», не делая академических оговорок, как в самом тексте научной работы. Сейчас исследователь вернулся к своей основной работе программистом. Официальные представители YouTube никак не прокомментировали его выводы, хотя, по неофициальным данным, администрация платформы ознакомилась с исследованием.