Исследователь Марк Ледвич опроверг миф о радикализации алгоритмами YouTube

Yannic Kilcher 3 тыс. 26 мин 5 мин 27.01.2020
Главное

Существует устойчивое мнение, что алгоритмы рекомендаций YouTube затягивают пользователей в «кроличью нору» экстремизма, постепенно предлагая всё более радикальный контент. Исследователь и программист Марк Ледвич (Mark Ledwich) решил проверить эту гипотезу с помощью жестких данных и пришел к противоположным выводам. В интервью блогеру и специалисту по ИИ Яннику Кильхеру (Yannic Kilcher) он рассказал, как на самом деле работают алгоритмы платформы и почему популярный медийный нарратив о радикализации не выдерживает научной критики.

🧐 Предыстория: миф о «кроличьей норе» радикализации 0:00

Янник Кильхер отмечает, что тема влияния рекомендательных систем на общество исследуется уже давно, и в медиа укоренился тезис о существовании «пайплайна радикализации» (radicalization pipeline). Согласно этой гипотезе, алгоритмы целенаправленно уводят пользователя от умеренного контента к ультраправым взглядам. Однако, как подчеркивает ведущий, авторы предыдущих резонансных исследований часто фиксировали движение пользователей только в одну сторону, полностью игнорируя обратные потоки трафика.

Марк Ледвич по профессии является программистом, а не академическим ученым. К собственному расследованию его подтолкнула предвзятость, которую он заметил в отчетах СМИ и некоторых научных публикациях. По мнению Ледвича, многие авторы искали доказательства радикализации исключительно ради подтверждения собственных страхов перед ростом популизма, скатываясь в предвзятость подтверждения (confirmation bias). Вместо беспристрастного анализа они фиксировали переходы от центристов к ультраправым, предвзято называя это «заражением», но не изучали общую картину. Будучи инженером, Ледвич решил собрать массив данных и проанализировать реальные направления рекомендаций.

📊 Методология и тернистый путь сбора данных 12:35

Сбор данных оказался сложной технической задачей, поскольку YouTube системно ограничивает автоматический доступ к своей платформе. Марк Ледвич начал работу в ноябре 2018 года, используя официальный YouTube API. Чтобы обойти жесткие квоты на количество запросов, ему пришлось создать несколько API-ключей, что нарушало правила платформы. Кроме того, правила требовали удалять собранные данные каждые 30 дней. В октябре 2019 года YouTube заблокировал Ледвичу доступ из-за этих нарушений.

После блокировки исследователь переключился на прямой скрапинг (веб-парсинг) страниц YouTube. Этот метод имитирует поведение обычного пользователя. Однако платформа быстро распознает автоматические запросы и блокирует IP-адрес после нескольких сотен обращений. Для обхода ограничений Ледвич задействовал дорогостоящий прокси-сервис.

Полноценная работа системы устроена следующим образом:

Для чистоты анализа в итоговой научной работе использовался массив данных, собранный за ноябрь и декабрь 2019 года, охватывающий более 400 тщательно классифицированных каналов.

🔄 Эффект «обратного трубопровода»: что показало исследование 4:13

Для визуализации и анализа собранных данных Ледвич разработал специальный интерактивный веб-сайт. На нем отображаются двусторонние потоки рекомендаций: слева показано, откуда каналы получают просмотры (инпрессии), а справа — куда алгоритм направляет зрителя дальше.

Анализ этих графов выявил неожиданную для медиа-среды картину. По мнению Ледвича, алгоритм работает в точности до наоборот по отношению к теории «кроличьей норы». Вместо радикализации он выполняет дерадикализирующую функцию, уводя пользователей от экстремального контента к мейнстриму.

В ходе демонстрации работы сайта были приведены конкретные примеры:

📺 Доминирование мейнстрим-медиа и зачистка 2019 года 9:37

Важным открытием исследования стало жесткое разделение контента по типам медиа: мейнстримные СМИ (Mainstream media) и независимые авторы (YouTube creators). Данные показывают колоссальный искусственный перекос алгоритма в пользу крупных СМИ.

Ледвич обнаружил следующую закономерность: независимые YouTube-блогеры отдают почти половину (около 50%) своих рекомендательных показов крупным официальным СМИ. При этом сами мейнстрим-медиа практически полностью изолированы: они рекомендуют только друг друга и крайне редко ссылаются на независимых авторов. По мнению Янника Кильхера, такое поведение алгоритма легко объясняется коммерческими интересами: YouTube стремится быть привлекательным для рекламодателей (advertiser friendly), а крупные СМИ кажутся им более безопасной гаванью.

Временной анализ данных показал, что ситуация не всегда была одинаковой. В апреле 2019 года YouTube провел масштабное обновление алгоритмов, резко ограничив продвижение теорий заговора и «маргинальных» (fringe) каналов. До этой зачистки алгоритм был ближе к нейтральному состоянию, хотя, по утверждению Ледвича, он и тогда никогда не создавал целенаправленного эффекта «кроличьей норы» в пользу радикалов.

💬 Критика, анонимные пользователи и «диванные» эксперты 19:30

После публикации препринта работы Ледвич и Кильхер столкнулись с мощнейшей волной критики и нападок в социальных сетях, продолжавшейся несколько дней. Главным содержательным аргументом критиков стало то, что исследование собирало «анонимные» рекомендации (без авторизации в аккаунте), а не персонализированную выдачу реальных пользователей.

Ледвич признает это ограничение, однако считает его несущественным для макровыводов. По его мнению, если усреднить историю просмотров миллионов людей, персонализация на глобальном уровне сглаживается, приближаясь к показателям анонимной выдачи. Янник Кильхер соглашается с этим и добавляет, что критики обязаны сами доказать наличие качественного (а не просто количественного) различия, прежде чем объявлять это фатальным недостатком работы.

Кроме того, собеседники называют позицию многих критиков лицемерной и мотивированной. В качестве примера приводится журналистка Зейнеп Тюфекчи, которая публично высмеивала работу Ледвича, хотя её собственная резонансная статья в New York Times основывалась на данных платформы, собиравшей точно такие же анонимные рекомендации. Ледвич также иронизирует над поведением пользователей Twitter, которые призывали аудиторию «не читать статью самостоятельно, а дождаться мнения профильных экспертов».

В завершение Марк Ледвич отметил, что открыто признает допущенные им перегибы в личных публикациях на Medium и в Twitter, где он формулировал выводы более категорично и в «байесовском стиле», не делая академических оговорок, как в самом тексте научной работы. Сейчас исследователь вернулся к своей основной работе программистом. Официальные представители YouTube никак не прокомментировали его выводы, хотя, по неофициальным данным, администрация платформы ознакомилась с исследованием.

💬 Цитаты

«Когда я говорю, что алгоритм оказывает дерадикализирующее влияние, я имею в виду именно рекомендации.»

Марк Ледвич 23:26

«Они просто искали способы подтвердить, что YouTube радикализирует людей, и находили подтверждения этому.»

Марк Ледвич 1:18
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Пайплайн радикализации (Radicalization pipeline)
Гипотеза о том, что алгоритмы рекомендаций постепенно предлагают пользователю всё более экстремальный контент.
Пузырь фильтров (Filter bubble)
Состояние изоляции, при котором алгоритмы показывают пользователю только тот контент, который соответствует его текущим взглядам.
Скрапинг (Scraping)
Технология автоматического сбора данных с веб-страниц с помощью специальных программ.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2018 года Марк Ледвич начинает сбор данных о рекомендациях YouTube через официальный API.
  2. Апрель 2019 года YouTube проводит масштабное обновление алгоритмов, ограничив продвижение контента с теориями заговора.
  3. Октябрь 2019 года YouTube блокирует API-доступ Ледвичу, после чего исследователь переходит на веб-скрапинг через прокси.
  4. Ноябрь-декабрь 2019 года Период сбора чистого массива данных по 400+ каналам для публикации научной работы.
⚖️ Другая сторона
Технологии и IT Марк Ледвич YouTube Алгоритмы рекомендаций Радикализация контента