Гордон Кровитц: «ИИ-модели распространяют дезинформацию в 100% случаев без защиты»

Eye on AI 531 48 мин 4 мин 22.11.2023
Главное

Рост генеративного искусственного интеллекта привел к взрывному распространению синтетического контента, который зачастую неотличим от реальности, но при этом сеет дезинформацию в промышленных масштабах. В новом выпуске подкаста Eye on AI ведущий Крейг Смит обсуждает эту угрозу с Гордоном Кровитцем, сооснователем компании NewsGuard и бывшим издателем The Wall Street Journal, который сегодня занимается созданием «инструментария доверия» для борьбы с ИИ-галлюцинациями и государственными кампаниями по дезинформации.

🛡️ Миссия NewsGuard: Журналистика против ботов 2:25

Гордон Кровитц и Стив Брилл основали NewsGuard пять лет назад с целью предоставить потребителям новостей, брендам и демократическим институтам надежную систему оценки достоверности информации . По словам Кровитца, в основе компании лежит не ИИ, а человеческий интеллект: аналитики с журналистским образованием оценивают новостные сайты по девяти аполитичным критериям прозрачности и надежности .

На текущий момент компания оперирует двумя основными базами данных:

Кровитц подчеркивает, что эта работа крайне трудоемка: компания инвестировала 20 миллионов долларов в создание этих баз данных, используя человеческий труд для анализа «злонамеренных акторов» из России, Китая и Ирана [05:06, 23:28].

🤖 Феномен «ненадежных новостных сайтов на базе ИИ» (UAINS) 8:38

Одной из самых тревожных тенденций последнего времени стало появление сайтов, полностью генерируемых ИИ. Команда Кровитца выявила уже 557 таких ресурсов, которые они называют «ненадежными новостными сайтами, усиленными ИИ» (UAINS) .

Характеристики таких ресурсов:

⚔️ Red Teaming: Почему GPT-4 опаснее предшественников 17:32

Крейг Смит и Гордон Кровитц обсудили результаты «красного тестирования» (red teaming) популярных чат-ботов на предмет распространения лжи . Результаты оказались парадоксальными: чем мощнее модель, тем эффективнее она транслирует дезинформацию.

  1. ChatGPT 3.5: Распознал ложные утверждения в 20 случаях из 100, распространив дезинформацию в 80% случаев .
  2. ChatGPT 4.0: Несмотря на успех в сдаче экзамена на адвоката, модель распространила фейки в 100 случаях из 100 при соответствующих запросах .

Кровитц утверждает, что проблема заключается в принципе работы LLM: они ищут «следующее наиболее вероятное слово». Если вопрос касается российской дезинформации, следующим вероятным словом в обучающей выборке будет контент от RT, Sputnik или ТАСС .

🔦 Решение через «Fine-Tuning»: Опыт Microsoft 18:39

Единственным светлым пятном в текущей ситуации Кровитц называет интеграцию данных NewsGuard в экосистему Microsoft. В отличие от стандартного ChatGPT, Bing Chat использует рейтинги надежности для фильтрации ответов .

Пример, приведенный гостем:

По мнению Кровитца, это доказывает, что проблему галлюцинаций и фейков в ИИ можно решить технически, если у разработчиков будет «человеческая воля» использовать данные о доверии .

📉 Цинизм соцсетей против ответственности разработчиков ИИ 32:37

Обсуждая социальные платформы, Кровитц выразил скептицизм относительно их желания бороться с ложью. Он полагает, что около 15–20% пользователей соцсетей получают новости преимущественно из источников дезинформации . Для таких компаний, как Meta, внедрение инструментов прозрачности означало бы признание того, что их продукт токсичен, что негативно скажется на цене акций .

В отношении же компаний-разработчиков ИИ (OpenAI, Google, Anthropic) Кровитц настроен более оптимистично. По его мнению, распространение лжи не является их бизнес-моделью: «Им нет смысла распространять дезинформацию, они не зарабатывают на рекламе внутри чата. Они хотят, чтобы им доверяли крупные корпорации и правительства» .

🕵️ Будущее: ИИ-агенты и «информационный взрыв» 15:19

Крейг Смит выразил опасение, что развитие ИИ-агентов (моделей, способных самостоятельно совершать действия) приведет к комбинаторному взрыву дезинформации . Агенты смогут в автоматическом режиме регистрировать домены, создавать сотни сайтов и наполнять их контентом, замыкая цикл производства лжи без участия человека.

Кровитц признает риск «геометрического роста» объема такого контента, но надеется, что использование «данных доверия» при обучении моделей позволит ИИ распознавать фейки еще на стадии генерации, предотвращая их попадание в будущие обучающие выборки .

В завершение Гордон отметил, что Google Bard (ныне Gemini) при тестировании показал 80% «уровня провала», распространяя фейковые новости . Это подтверждает, что даже технологические гиганты пока проигрывают в этой гонке, если не уделяют приоритетного внимания ручной модерации обучающих данных .

💬 Цитаты

«На до-айном интернете уже было огромное количество дезинформации. Теперь у нас есть дезинформация, усиленная ИИ.»

Гордон Кровитц 10:54

«GPT-4 прошла экзамен на адвоката, но распространила 100 из 100 новостных фейков в нашем тесте.»

Гордон Кровитц 18:26
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Red Teaming
Процесс активного тестирования системы безопасности или модели ИИ на наличие уязвимостей и ошибок.
Nutrition Label
Метафорическое название подробного отчета NewsGuard о качестве и прозрачности новостного источника.
Programmatic Advertising
Автоматизированная покупка рекламы в реальном времени, из-за которой бренды часто попадают на сайты с фейками.
📊 Цифры
🗓 Хронология
  1. 2010 Публикация оригинальной сатирической статьи о Нетаньяху, которую ИИ в 2023 году выдал за факт.
  2. 2018 Основание компании NewsGuard Гордоном Кровитцем и Стивом Бриллом.
  3. 2023 Выход GPT-4 и начало активного мониторинга сайтов, созданных генеративным ИИ.
⚖️ Другая сторона
Искусственный интеллект NewsGuard Gordon Crovitz дезинформация ChatGPT Microsoft Bing