Как отличить человека от нейросети: основатель Originality.ai о битве за чистоту контента

Eye on AI 634 56 мин 4 мин 05.06.2024
Главное

Стремительное развитие больших языковых моделей (LLM) стерло грань между текстом, написанным человеком, и генерацией нейросети, породив новые риски для медиаиндустрии и образования. В новом эпизоде подкаста Eye on AI ведущий Крейг Смит обсуждает с Джонатаном Гиллемом, основателем сервиса Originality.ai, архитектуру детекторов контента, проблему «галлюцинаций» и будущее цифрового доверия.

🤖 Рождение индустрии детектирования контента 2:15

Джонатан Гиллем, инженер-механик по образованию, пришел в сферу ИИ из бизнеса по изданию контента и интернет-маркетинга . Его предыдущее агентство, Content Refined, занималось созданием специализированных текстов для SEO-продвижения. В эпоху после GPT-3 стало очевидно, что заказчики, готовые платить сотни долларов за статью, не хотят получать результат, созданный за пять секунд простым копированием из чат-бота .

Originality.ai возникла как ответ на этот запрос рынка. Гиллем подчеркивает, что детекторы ИИ принципиально отличаются от сервисов проверки на плагиат . Если плагиат-чекер предоставляет прямое доказательство в виде совпадающих фрагментов текста из других источников, то детектор ИИ — это прогностическая модель. Она не дает «доказательств» в юридическом смысле, а лишь оценивает вероятность того, что структура текста характерна для нейросети .

🛠 Как работает «предсказательная машина» Originality.ai 7:16

В основе Originality.ai лежит собственная модель, обученная с помощью контролируемого обучения (supervised learning) на миллионах примеров текстов, как человеческих, так и сгенерированных ИИ . По словам Гиллема:

Разработчики предлагают два режима работы:

  1. Turbo: модель, которую почти невозможно обмануть, но она дает больше ложноположительных срабатываний (false positives) .
  2. Standard: сбалансированный подход, допускающий незначительное использование ИИ-инструментов для SEO-оптимизации без пометки «100% ИИ» .

Гиллем утверждает, что даже если пользователь использует «состязательный промпт» (например, просит ИИ писать в специфическом стиле, чтобы скрыть следы нейросети), детектор все равно способен распознать паттерны .

📉 Образование и проблема ложных обвинений 11:49

Академическая среда — один из самых крупных, но в то же время проблемных сегментов для детекторов контента. Гиллем признает, что компания относится к использованию своего софта в вузах с осторожностью .

Основные факты об эффективности в образовании:

Гиллем упоминает скандальный случай, когда профессор провалил весь класс, просто спросив у ChatGPT: «Ты написал эти работы?» . Чат-бот, склонный подыгрывать пользователю, ответил утвердительно, что не являлось правдой . Гиллем настаивает: результаты детектора должны использоваться как информационный сигнал для проверки, а не как единственное основание для дисциплинарных взысканий .

⚠️ Экзистенциальная угроза для Google и веб-издателей 16:26

Главная причина, по которой издатели боятся ИИ-контента — позиция поисковых систем. Гиллем считает, что для Google массовая генерация текстов нейросетями является экзистенциальной угрозой . Если интернет заполнится миллиардами статей без добавочной ценности, пользователи уйдут напрямую в чат-боты.

Позиция Google, по наблюдениям Гиллема:

🔄 Обучение на собственном «хвосте»: деградация моделей 28:00

Крейг Смит поднял вопрос о проблеме «коллапса моделей», когда нейросети начинают обучаться на контенте, созданном другими нейросетями . Это ведет к потере разнообразия и «схлопыванию» распределения ответов к среднему значению.

Джонатан подтвердил, что исследования его компании выявили четкое различие: у человеческих текстов диапазон показателей «читабельности» (readability scores) очень широк, в то время как ИИ-тексты демонстрируют крайне узкое нормальное распределение . Модели фактически выдают «усредненный» контент. Это позволяет использовать детекторы для фильтрации обучающих наборов данных (datasets) при создании новых LLM, чтобы гарантировать наличие в них «живого» человеческого слова .

🔮 Будущее: водяные знаки vs детекторы 47:30

Многие эксперты возлагают надежды на технологию цифровых водяных знаков (watermarking), которую планируют внедрять Google и OpenAI. Однако Гиллем скептичен:

  1. OpenAI уже пыталась запустить собственный классификатор, но закрыла его из-за низкой точности, вызванной слишком жестким стремлением избежать ложных срабатываний .
  2. Открытые модели (open source) никогда не будут принудительно внедрять водяные знаки .
  3. Всегда найдутся способы «перефразирования» текста для удаления скрытых меток .

По мнению Гиллема, в ближайшие два года индустрия придет к «смешанному использованию» (mixed use case), когда большинство текстов будут гибридными . Поэтому цель Originality.ai — не просто выдавать вердикт «человек/робот», а детально показывать, в каких именно частях документа и в какой степени участвовал ИИ . Для этого компания также развивает функции автоматизированного фактчекинга (в режиме бета-тестирования), чтобы минимизировать риск попадания ИИ-галлюцинаций в финальные публикации .

💬 Цитаты

«Люди хотят, чтобы мир был чистым, и просят простого ответа 'да' или 'нет'. Но с ИИ мир стал намного сложнее.»

Джонатан Гиллем 53:31

«Детектор — это прогностическая машина, а не доказательство плагиата. Она оценивает вероятность участия ИИ.»

Джонатан Гиллем 40:06
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Adversarial prompt
Специально сконструированный запрос к ИИ, призванный обойти фильтры безопасности или скрыть следы генерации.
False positive
Ошибка детектора, при которой текст, написанный человеком, ложно определяется как созданный ИИ.
Watermarking
Технология внедрения невидимых глазу статистических меток в текст или изображение для подтверждения авторства ИИ.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Originality.ai LLM Google ChatGPT Джонатан Гиллем