В конце 2023 года Стэнфордская обсерватория интернета (Stanford Internet Observatory) опубликовала отчет, в котором сообщила об обнаружении более тысячи изображений с признаками насилия над детьми (CSAM) в крупнейшем открытом наборе данных LAION-5B. Это событие вызвало волну публикаций в СМИ и привело к временному удалению датасета разработчиками. Популярный AI-исследователь и блогер Янник Килчер детально разобрал этот отчет, поставив под сомнение не сам факт проблемы, а методы исследования и истинные мотивы его авторов.
🚩 Скандал вокруг LAION-5B: манипуляция или борьба за этику? 0:01
Янник Килчер начинает разбор с признания важности проблемы: наличие незаконного контента в обучающих выборках — это серьезный вызов, требующий немедленного решения . Однако сам отчет Стэнфордского центра киберполитики вызывает у него скепсис. По мнению ведущего, публикация больше напоминает «заказной материал» (hit piece), направленный на дискредитацию open-source сообщества в сфере искусственного интеллекта .
Позиция Килчера основывается на нескольких ключевых тезисах:
- Избирательность гнева: исследователь отмечает, что наиболее громкая реакция последовала от «профессиональных ИИ-этиков» в Twitter и Mastodon, которые используют инфоповод для раздувания страха перед открытыми моделями .
- Удар по доступности: Килчер предполагает, что конечная цель таких отчетов — заставить пользователей и компании бояться открытых данных и вернуться в эпоху «закрытых садов», когда доступ к технологиям контролировался узким кругом корпораций и госструктур .
- Отсутствие «ответственного разглашения»: авторы отчета не обратились к разработчикам LAION или платформе Hugging Face заранее, чтобы тихо удалить ссылки. Вместо этого они сразу опубликовали данные в СМИ для достижения максимального медийного эффекта .
🛠 Методология поиска: как Стэнфорд нашел иглу в стоге сена 14:40
В отчете описывается методика фильтрации данных LAION-5B (набора из 5 миллиардов пар «изображение-текст»), которая позволила выявить 1008 верифицированных случаев запрещенного контента .
Процесс включал несколько этапов:
- Первичный отсев: использование встроенного классификатора «небезопасного контента» (unsafe classifier) самого LAION .
- PhotoDNA: проверка изображений через систему Microsoft PhotoDNA, которая сопоставляет перцептивные хэши картинок с базами данных известных нарушений .
- Project Arachnid: передача подозрительных URL-адресов автоматизированной системе, которая затем передает их экспертам для окончательной верификации .
- Расширение поиска: использование векторных эмбеддингов для поиска визуально похожих изображений в окрестностях уже найденных нарушений (метод K-ближайших соседей или KNN) .
Килчер подчеркивает техническую иронию: исследователи использовали те самые инструменты (эмбеддинги и классификаторы LAION), которые они критикуют, чтобы доказать несовершенство датасета .
📉 Проблема масштаба и «нерфинг» моделей 10:25
Особое внимание в видео уделяется критике Stable Diffusion 1.5. В отчете Стэнфорда утверждается, что эта модель остается популярной именно из-за возможности генерации порнографии, в то время как версия 2.0 была «очищена» от такого контента .
Килчер категорически не согласен с такой трактовкой:
- Причина популярности SD 1.5: по мнению ведущего, версия 2.0 была признана сообществом «хуже» не из-за отсутствия NSFW-контента, а из-за общей деградации качества генерации. Он называет это «нерфингом» (умышленным ослаблением) технологий .
- Связь эстетики и запретного: исследователь выдвигает философский тезис: для понимания того, что такое «красивое» или «эстетичное», модель (как и человек) должна иметь представление о «темных» и «крайних» аспектах визуальной культуры. Лишение модели этих данных делает ее менее компетентной в целом .
- Статистическая значимость: Килчер указывает на цифры. 1000 изображений на 5 миллиардов — это 0,00002% датасета . Он сравнивает это с рисками в других областях (иммиграция, разработка лекарств), где общество допускает вероятность ошибки 1 на 5 миллионов ради общей пользы системы .
⚖️ Резонанс и выводы 21:41
В завершении отчета исследователи рекомендуют прекратить использование и распространение моделей, основанных на Stable Diffusion 1.5, если в них не применены жесткие фильтры безопасности .
Итоговая оценка Килчера:
- Позитивный эффект: отчет привлек внимание к инструментам верификации (API и сервисам), которые позволяют проверять данные, не скачивая сам запрещенный контент .
- Негативный эффект: Стэнфордские исследователи, по мнению Яника, смешивают реальную проблему безопасности с идеологической борьбой против открытых весов . Он призывает разделять технические задачи по фильтрации данных и «нападки» на open-source, которые могут замедлить прогресс в области ИИ .
Разработчики LAION уже удалили датасет для полной очистки, пообещав вернуть его после тщательной проверки . Таким образом, миссия исследователей была выполнена, но методы ее достижения оставили у экспертов индустрии горькое послевкусие.