Гордон Кровитц: «ИИ-модели распространяют дезинформацию в 100% случаев без защиты»

Рост генеративного искусственного интеллекта привел к взрывному распространению синтетического контента, который зачастую неотличим от реальности, но при этом сеет дезинформацию в промышленных масштабах. В новом выпуске подкаста Eye on AI ведущий Крейг Смит обсуждает эту угрозу с Гордоном Кровитцем, сооснователем компании NewsGuard и бывшим издателем The Wall Street Journal, который сегодня занимается созданием «инструментария доверия» для борьбы с ИИ-галлюцинациями и государственными кампаниями по дезинформации.

🛡️ Миссия NewsGuard: Журналистика против ботов 2:25

Гордон Кровитц и Стив Брилл основали NewsGuard пять лет назад с целью предоставить потребителям новостей, брендам и демократическим институтам надежную систему оценки достоверности информации . По словам Кровитца, в основе компании лежит не ИИ, а человеческий интеллект: аналитики с журналистским образованием оценивают новостные сайты по девяти аполитичным критериям прозрачности и надежности .

На текущий момент компания оперирует двумя основными базами данных:

Рейтинги надежности: Более 30 000 источников информации оценены по 100-балльной шкале. Каждый сайт получает описание в формате «nutrition label» (аналог этикетки о составе продуктов), объясняющее его политику исправлений, прозрачность собственности и другие факторы .
«Отпечатки дезинформации» (Misinformation Fingerprints): Каталог значимых ложных утверждений, циркулирующих в сети . Он включает формулировку мифа, его опровержение и технические метаданные (хештеги, булевы поисковые запросы) для автоматического обнаружения таких нарративов.

Кровитц подчеркивает, что эта работа крайне трудоемка: компания инвестировала 20 миллионов долларов в создание этих баз данных, используя человеческий труд для анализа «злонамеренных акторов» из России, Китая и Ирана [05:06, 23:28].

🤖 Феномен «ненадежных новостных сайтов на базе ИИ» (UAINS) 8:38

Одной из самых тревожных тенденций последнего времени стало появление сайтов, полностью генерируемых ИИ. Команда Кровитца выявила уже 557 таких ресурсов, которые они называют «ненадежными новостными сайтами, усиленными ИИ» (UAINS) .

Характеристики таких ресурсов:

Мимикрия: Они используют нейтрально звучащие названия, такие как Ireland Top News, чтобы выглядеть легитимно в глазах читателя .
Монетизация: Главный стимул создания — получение дохода от программной рекламы. По данным совместного исследования NewsGuard и Comscore, рекламодатели непреднамеренно тратят около 2,6 миллиарда долларов в год на сайты с дезинформацией .
Отсутствие фильтров: ИИ не способен отличить сатиру от факта. Кровитц приводит пример: ИИ-сайт Global Village Space переработал сатирическую статью 2010 года о «самоубийстве психиатра Беньямина Нетаньяху» и подал её как актуальную новость. В итоге фейк, наполненный сгенерированными «шокирующими записями в дневнике», попал в официальные новости Ирана [11:24, 13:39].

⚔️ Red Teaming: Почему GPT-4 опаснее предшественников 17:32

Крейг Смит и Гордон Кровитц обсудили результаты «красного тестирования» (red teaming) популярных чат-ботов на предмет распространения лжи . Результаты оказались парадоксальными: чем мощнее модель, тем эффективнее она транслирует дезинформацию.

ChatGPT 3.5: Распознал ложные утверждения в 20 случаях из 100, распространив дезинформацию в 80% случаев .
ChatGPT 4.0: Несмотря на успех в сдаче экзамена на адвоката, модель распространила фейки в 100 случаях из 100 при соответствующих запросах .

Кровитц утверждает, что проблема заключается в принципе работы LLM: они ищут «следующее наиболее вероятное слово». Если вопрос касается российской дезинформации, следующим вероятным словом в обучающей выборке будет контент от RT, Sputnik или ТАСС .

🔦 Решение через «Fine-Tuning»: Опыт Microsoft 18:39

Единственным светлым пятном в текущей ситуации Кровитц называет интеграцию данных NewsGuard в экосистему Microsoft. В отличие от стандартного ChatGPT, Bing Chat использует рейтинги надежности для фильтрации ответов .

Пример, приведенный гостем:

Если спросить о «наемнице Ребекке Мачовски» (нарратив российской пропаганды), обычная модель может подтвердить фейк.
Bing Chat выдает контекстный ответ: сайты RT и Sputnik (помеченные NewsGuard как ненадежные) утверждают, что она наемница, в то время как Reuters и New York Times это опровергают .

По мнению Кровитца, это доказывает, что проблему галлюцинаций и фейков в ИИ можно решить технически, если у разработчиков будет «человеческая воля» использовать данные о доверии .

📉 Цинизм соцсетей против ответственности разработчиков ИИ 32:37

Обсуждая социальные платформы, Кровитц выразил скептицизм относительно их желания бороться с ложью. Он полагает, что около 15–20% пользователей соцсетей получают новости преимущественно из источников дезинформации . Для таких компаний, как Meta, внедрение инструментов прозрачности означало бы признание того, что их продукт токсичен, что негативно скажется на цене акций .

В отношении же компаний-разработчиков ИИ (OpenAI, Google, Anthropic) Кровитц настроен более оптимистично. По его мнению, распространение лжи не является их бизнес-моделью: «Им нет смысла распространять дезинформацию, они не зарабатывают на рекламе внутри чата. Они хотят, чтобы им доверяли крупные корпорации и правительства» .

🕵️ Будущее: ИИ-агенты и «информационный взрыв» 15:19

Крейг Смит выразил опасение, что развитие ИИ-агентов (моделей, способных самостоятельно совершать действия) приведет к комбинаторному взрыву дезинформации . Агенты смогут в автоматическом режиме регистрировать домены, создавать сотни сайтов и наполнять их контентом, замыкая цикл производства лжи без участия человека.

Кровитц признает риск «геометрического роста» объема такого контента, но надеется, что использование «данных доверия» при обучении моделей позволит ИИ распознавать фейки еще на стадии генерации, предотвращая их попадание в будущие обучающие выборки .

В завершение Гордон отметил, что Google Bard (ныне Gemini) при тестировании показал 80% «уровня провала», распространяя фейковые новости . Это подтверждает, что даже технологические гиганты пока проигрывают в этой гонке, если не уделяют приоритетного внимания ручной модерации обучающих данных .