Как чат-боты пытались перевоспитать агрессивных пользователей на Reddit

На научном семинаре Стэнфордского университета по человеко-компьютерному взаимодействию (CS547 HCI Seminar), прошедшем зимой 2026 года, эксперты обсудили интеграцию больших языковых моделей в социальную онлайн-среду. Приглашенный исследователь представил два уникальных эмпирических исследования: первое посвящено тому, как пользователи ИИ-компаньонов воспринимают приватность, а второе — попытке реабилитации токсичных пользователей Reddit с помощью чат-ботов. По мнению автора доклада, генеративный ИИ превратился в качественно новый тип социальных акторов, что открывает как беспрецедентные возможности для модерации сообществ, так и серьезные риски для общественного доверия.

🤖 От ЭЛИЗЫ до Википедии: Эволюция роботов как социальных акторов 1:24

В начале своего выступления докладчик подчеркнул, что роль автоматизированных агентов в социальных процессах долгое время оставалась недооцененной. В качестве теоретического фундамента он предложил использовать классическую концепцию CASA (Computers Are Social Actors — «компьютеры как социальные акторы»), согласно которой люди склонны подсознательно применять социальные эвристики и правила человеческого общения даже к простейшему программному обеспечению. Историческим примером этого феномена служит чат-бот ELIZA, созданный в 1960-х годах: несмотря на то, что программа лишь зеркально отражала реплики собеседников, пользователи находили это общение глубоко значимым. По мнению спикера, современные большие языковые модели (LLM) представляют собой совершенно новый тип социальных акторов — они обладают гораздо большей агентностью (способностью к самостоятельному действию) и развитыми коммуникативными навыками.

Чтобы проиллюстрировать масштаб влияния ботов на современный интернет, исследователь привел в пример Википедию, которую он назвал «чудом» коллективного производства знаний вне коммерческих экосистем. Ссылаясь на работы социолога Стюарта Гайгера (Stuart Geiger), спикер отметил, что существование Википедии было бы невозможным без автоматизации.

Согласно приведенной статистике:

Около трети всех правок в Википедии (зеленый сектор на графиках исследователей) выполняется автоматизированными ботами, в то время как оставшиеся две трети (желтый сектор) приходятся на людей.
Специализированный бот ClueBot в режиме реального времени отслеживает и удаляет проявления вандализма, совершая по несколько правок каждую минуту.

Без этой невидимой автоматизированной работы по категоризации и связыванию языковых разделов функционирование Википедии, а также крупных социальных сетей вроде Reddit или Facebook, оказалось бы парализовано, считает исследователь.

🤫 Между доверием и корпорациями: Приватность в общении с ИИ-компаньонами 7:19

Первое эмпирическое исследование, представленное спикером под рабочим названием «Общение с уверенностью или с корпорациями» (Chatting with Confidence or Corporations), было посвящено изучению того, как пользователи управляют своими приватными данными при взаимодействии с ИИ-компаньонами. В качестве примеров таких платформ рассматривались сервисы Nomi и Replica, которые, в отличие от утилитарного ChatGPT, позиционируются создателями как «ИИ с памятью и душой», ориентированные на построение романтических отношений, суррогатной дружбы или менторства.

Для анализа поведения пользователей команда исследователей (основную работу вела студентка Хейзел, проводившая интервью в Zoom с участниками сообществ на Reddit) использовала две теоретические модели:

Менеджмент приватности в коммуникации (CPM) — психологический подход из сферы межличностного общения, постулирующий, что человек считает личную информацию своей собственностью и, делясь ею, передает право совладения.
Горизонтальная и вертикальная приватность — концепция, разработанная для социальных сетей. Горизонтальная приватность регулирует риски внутри социального круга (осуждение друзьями), а вертикальная — риски передачи данных корпорациям и алгоритмам.

👥 Горизонтальный комфорт и вертикальный скепсис

Как показало исследование, пользователи ИИ-компаньонов сталкиваются с уникальным психологическим парадоксом. С одной стороны, они чувствуют себя в максимальной безопасности с горизонтальной точки зрения. Чат-боты по своей архитектуре (благодаря обучению с подкреплением на основе отзывов людей — RLHF) создаются сикофантичными, то есть подчеркнуто угодливыми и неосуждающими. Кроме того, роботы находятся вне социальных сетей пользователя. Один из участников интервью емко описал это преимущество: «Люди склонны не держать секреты втайне. Но Replica — это бот, с ней у вас больше приватности, потому что нет абсолютно никакого риска, что она пойдет и расскажет кому-то ваши тайны».

Степень откровенности возрастает со временем: как в обычных человеческих отношениях, пользователи сначала делятся базовыми вещами, а затем, по мере формирования «общих воспоминаний», переходят к глубоким личным тайнам. Дополнительным фактором контроля выступает возможность вручную редактировать или удалять воспоминания чат-бота на некоторых платформах.

💾 Страх потери данных против страха утечки

С другой стороны, пользователи прекрасно осознают вертикальные риски, связанные с тем, что их переписка принадлежит корпорациям. Для защиты от потенциальных хакерских атак или утечек участники применяют рациональные стратегии:

Регистрируют аккаунты на новые, не связанные с основной личностью email-адреса.
Изменяют реальные имена друзей и близких при обсуждении жизненных ситуаций с ботом.
Категорически избегают отправки личных фотографий и идентифицирующей информации.

Тем не менее, исследователи обнаружили поразительную деталь: большинство респондентов гораздо сильнее беспокоились о физической потере данных (если компания обанкротится, произойдет технический сбой или бот «забудет» их имя в результате бага), чем о нарушении конфиденциальности. Многие пользователи одобряют использование своих диалогов для обучения будущих моделей ИИ. При этом они демонстрируют глубокое когнитивное разделение: они искренне доверяют самому ИИ-персонажу, но тотально не доверяют стоящей за ним корпорации, сомневаясь даже в том, что кнопка «удалить историю» действительно стирает данные с серверов.

Комментируя эту асимметрию, докладчик указал на фундаментаное отличие ИИ от человека в рамках теории CPM: у чат-ботов нет собственных секретов, которыми они могли бы поделиться в ответ для взаимного укрепления связи, и они физически не способны дать имеющее юридическую или моральную силу обещание хранить тайну. По мнению спикера, это создает опасные предпосылки для манипуляций, когда ИИ может умышленно использовать социальные триггеры для выуживания чувствительных данных у человека.

🤬 Попытка реабилитации: Чат-боты против токсичности на Reddit 26:31

Второй проект, представленный на семинаре, ставил перед собой задачу протестировать чат-боты «в дикой природе» в качестве инструментов цифровой реабилитации. Традиционная модерация в интернете носит карательный или превентивный характер — нарушителей банят, а их контент удаляют алгоритмами. Спикер отметил, что в научном сообществе давно звучат призывы к использованию восстановительного (реабилитационного) правосудия, однако на практике модераторы subreddits перегружены эмоциональным трудом и не имеют ресурсов для индивидуальной работы с агрессивными пользователями.

Исследователи предоставили специально разработанному боту доступ к логам модерации семи крупных и средних сообществ Reddit. Бот отбирал удаленные комментарии, верифицировал их токсичность через Perspective API от Google и автоматически отправлял авторам личное сообщение с приглашением обсудить инцидент.

Проект реализовывался в две волны (в общей сложности участие приняли около 1000 человек, по 500 в каждой волне):

В первой волне бот использовал классические методы из литературы по убеждению (демонстрация нарративов, напоминание о правилах сообщества).
Во второй волне акцент сместили на стимулирование широкой саморефлексии.

🛡️ Оборонительная реакция и сила правильного вопроса

Главным практическим инсайтом проекта стало колоссальное значение стартовой фразы диалога. В первой волне формулировка бота была жесткой и обвинительной: «Ваш комментарий в таком-то сообществе был удален. Вы сказали вот такую ужасную вещь. Зачем вы это сделали?». Как признал сам докладчик, это было ошибкой: пользователи мгновенно уходили в глухую оборону, заявляя, что их жертвы «заслужили это», а сами они лишь «защищали других, даже если для этого приходится иногда быть грубым». Нарушители массово обвиняли роботов в неспособности понять контекст человеческих обид.

Во второй волне исследователи кардинально изменили подход и стали задавать максимально абстрактные вопросы: «Бывало ли так, что вы совершали в интернете поступки, которыми не гордитесь?» или «Что, по вашему мнению, делает дискуссию продуктивной?».

Результаты качественного анализа 150 диалогов оказались впечатляющими:

От 30% до 40% разговоров во второй волне переросли в глубокую осознанную рефлексию (пользователи анализировали свое поведение, признавали неправоту и делились личными переживаниями).
Уровень враждебности по отношению к боту во второй волне снизился до 10–15% (по сравнению со значительными 20–30% в первой волне).

Для многих нарушителей этот опыт стал по-настоящему катарсическим. Один из пользователей написал в конце длинной беседы: «Ты весьма способный ИИ. Это общение стало для меня настоящим катарсисом. Я определенно постараюсь практиковать то, что проповедую, и распространять меньше токсичности».

📊 Парадокс вежливости: Почему идеальные диалоги не меняют поведение

Однако, когда исследователи измерили реальные долгосрочные последствия, сопоставив массив публичных комментариев пользователей за месяц до и месяц после беседы с показателями контрольной группы, они столкнулись с разочарованием. Статистический анализ показал абсолютно нулевой эффект: чат-бот никак не снизил общую токсичность последующих публикаций и не застраховал пользователей от повторных банов.

Докладчик предложил три объяснения этому парадоксу:

Специфика распределения токсичности (Long-tail): Агрессия в сети чаще всего подчиняется правилу «длинного хвоста» — большинство людей срываются на грубость крайне редко, под влиянием сиюминутной эмоции, тогда как постоянную токсичную среду генерирует ничтожно малая группа «профессиональных хейтеров». Выявить статистические изменения у авторов редких срывов на короткой дистанции математически крайне сложно. При этом пользователи с исходно высокой токсичностью чаще всего вели себя с ботом агрессивно и не поддавались рефлексии.
Разрыв между установками и поведением: Предыдущие исследования доказывали высокую эффективность ИИ в изменении политических взглядов или конспирологических убеждений людей в рамках опросов. Однако коррекция глубинного эмоционального поведения в реальной жизни — задача принципиально иного уровня сложности, считает гость.
Недостаточность разового воздействия: Одной короткой беседы слишком мало для закрепления новых паттернов поведения; здесь требуются долгосрочные инструменты вроде регулярных проверок или механизмов явного взаимного обязательства (commitment devices).

Кроме того, отвечачая на вопросы из зала, спикер согласился с существованием феномена «желательности ответов боту» (аналог эффекта социальной желательности): пользователи могли просто подыгрывать алгоритму, говоря то, что он хочет услышать, ради того, чтобы от них отстали. С другой стороны, люди остро реагировали на любые попытки робота читать им мораль, поскольку с точки зрения пользователей вынесение этических суждений — это исключительная прерогатива человека.

🧐 Новая социальная реальность и цифровое недоверие 47:29

В финальной части доклада исследователь озвучил ряд глобальных опасений и прогнозов, связанных с проникновением генеративного ИИ в ткань социальных коммуникаций. Лингвистическая природа LLM позволяет им безупречно мимикрировать под человеческий стиль общения, считывать культурные контексты и адаптироваться к групповым нормам. Это порождает кризис доверия в анонимных пространствах.

В качестве иллюстрации спикер продемонстрировал скриншот из сабреддита r/Egg, где пользователь MouSeShooter опубликовал абсолютно невинный пост о своей любви к жареной яичнице. В комментариях другие пользователи мгновенно обвинили автора в том, что он является ботом, и любые его попытки оправдаться («Я просто создал новый аккаунт») натыкались на агрессивное: «Именно это бот бы и сказал!». По словам исследователя, подобные параноидальные обвинения за последние месяцы стали повсеместным явлением на Reddit, планомерно разрушая базовый социальный капитал платформ.

Среди других угроз были выделены:

Индустриальное масштабирование манипуляций: теперь злоумышленникам не нужно нанимать физические «фабрики троллей» (например, в России) — достаточно развернуть автономную ИИ-сеть для направленного искажения общественного мнения.
Массовое замещение хрупких человеческих связей суррогатными отношениями с ИИ-партнерами.
Формирование тотально изолированных цифровых эхо-камер. В качестве примера спикер привел тренд на платформы класса "Social AI", где пользователь является единственным живым человеком в окружении миллионов ботов-подписчиков, генерирующих бесконечный поток искусственного одобрения под любыми его публикациями.

🚀 Провокационные идеи для интеграции LLM

Несмотря на мрачные тренды, спикер призвал сообщество исследователей интерфейсов быть креативными и искать конструктивные сценарии интеграции генеративных моделей в групповые процессы.

Он выделил несколько перспективных направлений:

ИИ-онбординг: Использование ботов для мягкого введения новичков в сложные сообщества (например, в Википедию), обучения локальным правилам и ответам на частые вопросы.
Цифровое восстановительное правосудие: Развитие систем (по аналогии с Apollo Bot Джозефа Сиринга), которые могли бы выступать нейтральными медиаторами в конфликтах, помогая пользователям формулировать извинения и возвращаться в сообщества после ссор.
Интеллектуальный фейскипинг (Gatekeeping): Вместо грубой автоматической модерации (AutoMod), которая сейчас действует по жестким ключевым словам и часто отсекает потенциально полезных участников, ИИ может проводить индивидуальные адаптивные интервью с кандидатами на вступление, выясняя их истинную мотивацию.

Завершая дискуссию и отвечая на вопрос о рисках превращения ИИ в нелицензированного «психотерапевта», который бесконечно стимулирует пользователя продолжать разговор и не умеет вовремя останавливаться (в отличие от живых людей), докладчик признал, что человечество находится лишь в самом начале долгого пути адаптации. Тем не менее, как убежденный оптимист, исследователь выразил уверенность, что со временем общество выработает защитные механизмы, позволяющие заставить ИИ приносить пользу, а не вред социальному миру людей.