Как отличить человека от нейросети: основатель Originality.ai о битве за чистоту контента

Стремительное развитие больших языковых моделей (LLM) стерло грань между текстом, написанным человеком, и генерацией нейросети, породив новые риски для медиаиндустрии и образования. В новом эпизоде подкаста Eye on AI ведущий Крейг Смит обсуждает с Джонатаном Гиллемом, основателем сервиса Originality.ai, архитектуру детекторов контента, проблему «галлюцинаций» и будущее цифрового доверия.

🤖 Рождение индустрии детектирования контента 2:15

Джонатан Гиллем, инженер-механик по образованию, пришел в сферу ИИ из бизнеса по изданию контента и интернет-маркетинга . Его предыдущее агентство, Content Refined, занималось созданием специализированных текстов для SEO-продвижения. В эпоху после GPT-3 стало очевидно, что заказчики, готовые платить сотни долларов за статью, не хотят получать результат, созданный за пять секунд простым копированием из чат-бота .

Originality.ai возникла как ответ на этот запрос рынка. Гиллем подчеркивает, что детекторы ИИ принципиально отличаются от сервисов проверки на плагиат . Если плагиат-чекер предоставляет прямое доказательство в виде совпадающих фрагментов текста из других источников, то детектор ИИ — это прогностическая модель. Она не дает «доказательств» в юридическом смысле, а лишь оценивает вероятность того, что структура текста характерна для нейросети .

🛠 Как работает «предсказательная машина» Originality.ai 7:16

В основе Originality.ai лежит собственная модель, обученная с помощью контролируемого обучения (supervised learning) на миллионах примеров текстов, как человеческих, так и сгенерированных ИИ . По словам Гиллема:

Система обучается на «синтетическом» контенте и текстах, отредактированных человеком после работы ИИ .
В компании работают две команды: «красная» (red team) постоянно ищет способы обмануть детектор с помощью хитрых промптов, а «синяя» (blue team) совершенствует защиту .
На текущий момент протестировано более 20 итераций моделей .

Разработчики предлагают два режима работы:

Turbo: модель, которую почти невозможно обмануть, но она дает больше ложноположительных срабатываний (false positives) .
Standard: сбалансированный подход, допускающий незначительное использование ИИ-инструментов для SEO-оптимизации без пометки «100% ИИ» .

Гиллем утверждает, что даже если пользователь использует «состязательный промпт» (например, просит ИИ писать в специфическом стиле, чтобы скрыть следы нейросети), детектор все равно способен распознать паттерны .

📉 Образование и проблема ложных обвинений 11:49

Академическая среда — один из самых крупных, но в то же время проблемных сегментов для детекторов контента. Гиллем признает, что компания относится к использованию своего софта в вузах с осторожностью .

Основные факты об эффективности в образовании:

Человек (преподаватель) способен распознать текст ИИ в 75% случаев, если знаком со стилем студента. Как только студент использует «состязательный промпт», точность человека падает до уровня случайного угадывания (50/50) .
Детектор Originality.ai показывает точность до 99.9% на обычных текстах и около 98% на текстах с хитрыми промптами .
Уровень ложноположительных срабатываний составляет около 3% .

Гиллем упоминает скандальный случай, когда профессор провалил весь класс, просто спросив у ChatGPT: «Ты написал эти работы?» . Чат-бот, склонный подыгрывать пользователю, ответил утвердительно, что не являлось правдой . Гиллем настаивает: результаты детектора должны использоваться как информационный сигнал для проверки, а не как единственное основание для дисциплинарных взысканий .

⚠️ Экзистенциальная угроза для Google и веб-издателей 16:26

Главная причина, по которой издатели боятся ИИ-контента — позиция поисковых систем. Гиллем считает, что для Google массовая генерация текстов нейросетями является экзистенциальной угрозой . Если интернет заполнится миллиардами статей без добавочной ценности, пользователи уйдут напрямую в чат-боты.

Позиция Google, по наблюдениям Гиллема:

Официально Google борется со «спамом», оставляя определение ИИ-контента размытым .
На практике сайты, публикующие тысячи ИИ-статей в день без участия человека, быстро теряют трафик и попадают под санкции .
Издатели готовы платить авторам $100 за статью, написанную человеком, но не готовы платить ту же сумму за результат минутного труда в ChatGPT .

🔄 Обучение на собственном «хвосте»: деградация моделей 28:00

Крейг Смит поднял вопрос о проблеме «коллапса моделей», когда нейросети начинают обучаться на контенте, созданном другими нейросетями . Это ведет к потере разнообразия и «схлопыванию» распределения ответов к среднему значению.

Джонатан подтвердил, что исследования его компании выявили четкое различие: у человеческих текстов диапазон показателей «читабельности» (readability scores) очень широк, в то время как ИИ-тексты демонстрируют крайне узкое нормальное распределение . Модели фактически выдают «усредненный» контент. Это позволяет использовать детекторы для фильтрации обучающих наборов данных (datasets) при создании новых LLM, чтобы гарантировать наличие в них «живого» человеческого слова .

🔮 Будущее: водяные знаки vs детекторы 47:30

Многие эксперты возлагают надежды на технологию цифровых водяных знаков (watermarking), которую планируют внедрять Google и OpenAI. Однако Гиллем скептичен:

OpenAI уже пыталась запустить собственный классификатор, но закрыла его из-за низкой точности, вызванной слишком жестким стремлением избежать ложных срабатываний .
Открытые модели (open source) никогда не будут принудительно внедрять водяные знаки .
Всегда найдутся способы «перефразирования» текста для удаления скрытых меток .

По мнению Гиллема, в ближайшие два года индустрия придет к «смешанному использованию» (mixed use case), когда большинство текстов будут гибридными . Поэтому цель Originality.ai — не просто выдавать вердикт «человек/робот», а детально показывать, в каких именно частях документа и в какой степени участвовал ИИ . Для этого компания также развивает функции автоматизированного фактчекинга (в режиме бета-тестирования), чтобы минимизировать риск попадания ИИ-галлюцинаций в финальные публикации .