Этика данных: как Маргарет Митчелл из Hugging Face борется с предвзятостью ИИ

Маргарет Митчелл, главный специалист по этике ИИ в Hugging Face и одна из авторов знаменитой статьи о «стохастических попугаях», возвращается к микрофону Сэма Чаррингтона, чтобы обсудить фундаментальный сдвиг в разработке ИИ. В центре внимания — переход от бездумного накопления данных к осознанному курированию, права создателей контента и математические методы оценки качества обучающих выборок.

🤝 Переход в Hugging Face: От совещаний к коду 0:13

Маргарет Митчелл, ранее работавшая в Microsoft Research и Google Brain, перешла в стартап Hugging Face . Одной из главных причин смены работы стало желание вернуться к написанию кода. По словам Митчелл, в крупных корпорациях успех специалиста часто приводит к тому, что его рабочее время полностью поглощается совещаниями и синхронизацией внутри огромной иерархии . В стартапе она получила возможность заниматься как программированием инструментов с открытым исходным кодом, так и формированием культуры компании.

В Hugging Face Митчелл фокусируется на:

Разработке инструментов для количественной оценки этических параметров данных.
Определении процессов публикации моделей и датасетов.
Вопросах инклюзивности и разнообразия в найме и корпоративной культуре .

Она также анонсировала найм в компанию «настоящего этика» (real ethicist), подчеркнув, что до недавнего времени позиция специалиста по этике в ИИ-компаниях была большой редкостью .

📚 Эволюция работы с данными: От качества к количеству и обратно 5:13

Митчелл описывает историческую ретроспективу сбора данных для машинного обучения, выделяя несколько этапов:

Эпоха корпусной лингвистики (1960-е): Данные собирались крайне бережно. Пример — Брауновский корпус . Разработчики следили за балансом тем (спорт, путешествия, фантастика) и строго соблюдали авторские права и лицензии создателей текста .
Переход к вычислительной лингвистике (1990-е): Фокус сместился на размер датасетов. При этом права все еще соблюдались, поэтому основным источником стали архивы новостных агентств, предоставлявших легальный доступ .
Эпоха Web 2.0 (2000-е — настоящее время): С появлением соцсетей и форумов возник подход laissez-faire (невмешательство). Исследователи начали массово «парсить» интернет, отдавая приоритет количеству над качеством .

Митчелл утверждает, что культура машинного обучения долгое время игнорировала долгосрочные последствия такого подхода. Сегодня она призывает вернуться к кураторству данных — процессу, в котором ценности закладываются в датасет еще на этапе его разработки .

⚖️ Права на данные и «цифровой труд» 15:30

Одной из самых острых тем дискуссии стала эксплуатация «цифрового труда». Люди, создающие контент в интернете, часто не подозревают, что их данные используются для обучения коммерческих моделей.

По мнению Митчелл, текущая ситуация напоминает эксплуатацию без согласия . Она выделяет следующие категории вреда:

Экономический ущерб: Компании монетизируют данные пользователей (например, через рекламу или продажу доступа к API), не делясь прибылью с авторами контента .
Нарушение приватности: Личные данные могут быть извлечены из моделей злоумышленниками (кража личности, сталкинг) .
Использование против воли автора: Фотографии из Flickr часто используются для обучения систем распознавания лиц, хотя авторы снимков могли быть против создания таких технологий .

Митчелл коснулась темы суверенитета данных (data sovereignty), особенно в контексте коренных народов. Она настаивает на том, что индивиды и сообщества должны иметь право распоряжаться своими данными, решать, как они будут использоваться, и давать явное согласие на их включение в обучающие выборки .

Особый интерес вызывает обсуждение законодательства Китая. Митчелл отмечает, что новые законы КНР о защите данных требуют получения согласия от человека, если его данные в датасете позволяют идентифицировать личность . Это выглядит иронично на фоне общей репутации Китая в сфере надзора, и Митчелл признает, что сама до конца не понимает мотивов такого шага, но считает это важным прецедентом .

📏 Квантификация этики: Инструменты измерения 28:44

Для реализации ответственного ИИ Митчелл разрабатывает методы автоматического измерения характеристик данных. Вместо субъективных оценок она предлагает использовать конкретные метрики:

Демографическое разнообразие: Количественная оценка представленности разных групп.
Стереотипизация: Измерение силы связей между понятиями. Например, насколько часто слово «улыбка» ассоциируется с женщинами по сравнению с мужчинами .
Естественность языка: Использование математических лингвистических законов (закон Ципфа) для оценки качества текста .

Митчелл работает над концепцией Data Cards (карточки данных) — облегченной версией Data Sheets, предложенных Тимнит Гебру. Основная цель «карточек» — снизить порог входа для разработчиков. Если заполнение подробных опросников о протоколах компенсации краудворкеров кажется программистам слишком сложным, то автоматические отчеты, встроенные в платформу (как на Hugging Face), могут стать стандартом индустрии .

📉 Закон Ципфа и детекция токсичности 40:24

Интересным техническим нюансом дискуссии стало обсуждение закона Ципфа для оценки «естественности» датасетов. Согласно этому закону, частота слова в языке обратно пропорциональна его рангу в списке частотности . У каждого языка есть свой параметр (альфа), который определяет форму этой кривой.

Митчелл утверждает, что:

Если датасет сильно отклоняется от идеального распределения Ципфа для конкретного языка, это признак того, что данные перегружены артефактами или плохо контролируемыми смешениями доменов .
Эти же статистические методы «второго порядка» могут помочь отличить текст, написанный человеком, от сгенерированного ИИ, что критически важно для борьбы с троллями и дезинформацией .

🕵️ Проблема «недокументированных» моделей 37:36

Размер современных больших языковых моделей (LLM) стал их главной проблемой с точки зрения этики. Когда обучающая выборка — это «весь интернет», она становится недокументируемой . Это приводит к непредсказуемому поведению моделей: они начинают выдавать токсичный или предвзятый контент, и разработчики не могут отследить, откуда именно пришло это влияние.

В качестве примера Митчелл приводит датасет C4 (Colossal Clean Crawled Corpus). Значительная его часть взята из Википедии, где большинство редакторов — белые мужчины из Северной Америки в возрасте около 20 лет . В результате история темнокожего населения планеты представлена в таких моделях крайне скудно или искаженно. До недавнего времени в англоязычной Википедии запрос «Black history» перенаправлялся на статью «African-American history», что, по мнению Митчелл, наглядно демонстрирует культурную предвзятость .