# Этика данных: как Маргарет Митчелл из Hugging Face борется с предвзятостью ИИ

Источник: https://www.youtube.com/watch?v=NcRkHr-9nHM
Канал: The TWIML AI Podcast
Опубликовано: 12.05.2022

---

Маргарет Митчелл, главный специалист по этике ИИ в Hugging Face и одна из авторов знаменитой статьи о «стохастических попугаях», возвращается к микрофону Сэма Чаррингтона, чтобы обсудить фундаментальный сдвиг в разработке ИИ. В центре внимания — переход от бездумного накопления данных к осознанному курированию, права создателей контента и математические методы оценки качества обучающих выборок.

## 🤝 Переход в Hugging Face: От совещаний к коду
[[JUMP:00:13]]

Маргарет Митчелл, ранее работавшая в Microsoft Research и Google Brain, перешла в стартап Hugging Face [02:09]. Одной из главных причин смены работы стало желание вернуться к написанию кода. По словам Митчелл, в крупных корпорациях успех специалиста часто приводит к тому, что его рабочее время полностью поглощается совещаниями и синхронизацией внутри огромной иерархии [03:27]. В стартапе она получила возможность заниматься как программированием инструментов с открытым исходным кодом, так и формированием культуры компании.

В Hugging Face Митчелл фокусируется на:

*   Разработке инструментов для количественной оценки этических параметров данных.
*   Определении процессов публикации моделей и датасетов.
*   Вопросах инклюзивности и разнообразия в найме и корпоративной культуре [04:19].

Она также анонсировала найм в компанию «настоящего этика» (real ethicist), подчеркнув, что до недавнего времени позиция специалиста по этике в ИИ-компаниях была большой редкостью [03:02].

## 📚 Эволюция работы с данными: От качества к количеству и обратно
[[JUMP:05:13]]

Митчелл описывает историческую ретроспективу сбора данных для машинного обучения, выделяя несколько этапов:

1.  **Эпоха корпусной лингвистики (1960-е):** Данные собирались крайне бережно. Пример — Брауновский корпус [12:56]. Разработчики следили за балансом тем (спорт, путешествия, фантастика) и строго соблюдали авторские права и лицензии создателей текста [13:10].
2.  **Переход к вычислительной лингвистике (1990-е):** Фокус сместился на размер датасетов. При этом права все еще соблюдались, поэтому основным источником стали архивы новостных агентств, предоставлявших легальный доступ [14:00].
3.  **Эпоха Web 2.0 (2000-е — настоящее время):** С появлением соцсетей и форумов возник подход *laissez-faire* (невмешательство). Исследователи начали массово «парсить» интернет, отдавая приоритет количеству над качеством [15:05].

Митчелл утверждает, что культура машинного обучения долгое время игнорировала долгосрочные последствия такого подхода. Сегодня она призывает вернуться к **кураторству данных** — процессу, в котором ценности закладываются в датасет еще на этапе его разработки [05:51].

## ⚖️ Права на данные и «цифровой труд»
[[JUMP:15:30]]

Одной из самых острых тем дискуссии стала эксплуатация «цифрового труда». Люди, создающие контент в интернете, часто не подозревают, что их данные используются для обучения коммерческих моделей.

По мнению Митчелл, текущая ситуация напоминает эксплуатацию без согласия [11:10]. Она выделяет следующие категории вреда:

*   **Экономический ущерб:** Компании монетизируют данные пользователей (например, через рекламу или продажу доступа к API), не делясь прибылью с авторами контента [17:06].
*   **Нарушение приватности:** Личные данные могут быть извлечены из моделей злоумышленниками (кража личности, сталкинг) [18:52].
*   **Использование против воли автора:** Фотографии из Flickr часто используются для обучения систем распознавания лиц, хотя авторы снимков могли быть против создания таких технологий [19:18].

Митчелл коснулась темы **суверенитета данных** (data sovereignty), особенно в контексте коренных народов. Она настаивает на том, что индивиды и сообщества должны иметь право распоряжаться своими данными, решать, как они будут использоваться, и давать явное согласие на их включение в обучающие выборки [24:59].

Особый интерес вызывает обсуждение законодательства Китая. Митчелл отмечает, что новые законы КНР о защите данных требуют получения согласия от человека, если его данные в датасете позволяют идентифицировать личность [23:30]. Это выглядит иронично на фоне общей репутации Китая в сфере надзора, и Митчелл признает, что сама до конца не понимает мотивов такого шага, но считает это важным прецедентом [26:06].

## 📏 Квантификация этики: Инструменты измерения
[[JUMP:28:44]]

Для реализации ответственного ИИ Митчелл разрабатывает методы автоматического измерения характеристик данных. Вместо субъективных оценок она предлагает использовать конкретные метрики:

*   **Демографическое разнообразие:** Количественная оценка представленности разных групп.
*   **Стереотипизация:** Измерение силы связей между понятиями. Например, насколько часто слово «улыбка» ассоциируется с женщинами по сравнению с мужчинами [27:39].
*   **Естественность языка:** Использование математических лингвистических законов (закон Ципфа) для оценки качества текста [30:42].

Митчелл работает над концепцией **Data Cards** (карточки данных) — облегченной версией Data Sheets, предложенных Тимнит Гебру. Основная цель «карточек» — снизить порог входа для разработчиков. Если заполнение подробных опросников о протоколах компенсации краудворкеров кажется программистам слишком сложным, то автоматические отчеты, встроенные в платформу (как на Hugging Face), могут стать стандартом индустрии [30:16].

## 📉 Закон Ципфа и детекция токсичности
[[JUMP:40:24]]

Интересным техническим нюансом дискуссии стало обсуждение **закона Ципфа** для оценки «естественности» датасетов. Согласно этому закону, частота слова в языке обратно пропорциональна его рангу в списке частотности [42:08]. У каждого языка есть свой параметр (альфа), который определяет форму этой кривой.

Митчелл утверждает, что:

1.  Если датасет сильно отклоняется от идеального распределения Ципфа для конкретного языка, это признак того, что данные перегружены артефактами или плохо контролируемыми смешениями доменов [43:31].
2.  Эти же статистические методы «второго порядка» могут помочь отличить текст, написанный человеком, от сгенерированного ИИ, что критически важно для борьбы с троллями и дезинформацией [45:14].

## 🕵️ Проблема «недокументированных» моделей
[[JUMP:37:36]]

Размер современных больших языковых моделей (LLM) стал их главной проблемой с точки зрения этики. Когда обучающая выборка — это «весь интернет», она становится **недокументируемой** [37:49]. Это приводит к непредсказуемому поведению моделей: они начинают выдавать токсичный или предвзятый контент, и разработчики не могут отследить, откуда именно пришло это влияние.

В качестве примера Митчелл приводит датасет **C4** (Colossal Clean Crawled Corpus). Значительная его часть взята из Википедии, где большинство редакторов — белые мужчины из Северной Америки в возрасте около 20 лет [39:44]. В результате история темнокожего населения планеты представлена в таких моделях крайне скудно или искаженно. До недавнего времени в англоязычной Википедии запрос «Black history» перенаправлялся на статью «African-American history», что, по мнению Митчелл, наглядно демонстрирует культурную предвзятость [40:11].