Этика данных: как Маргарет Митчелл из Hugging Face борется с предвзятостью ИИ

The TWIML AI Podcast 733 46 мин 4 мин 12.05.2022
Главное

Маргарет Митчелл, главный специалист по этике ИИ в Hugging Face и одна из авторов знаменитой статьи о «стохастических попугаях», возвращается к микрофону Сэма Чаррингтона, чтобы обсудить фундаментальный сдвиг в разработке ИИ. В центре внимания — переход от бездумного накопления данных к осознанному курированию, права создателей контента и математические методы оценки качества обучающих выборок.

🤝 Переход в Hugging Face: От совещаний к коду 0:13

Маргарет Митчелл, ранее работавшая в Microsoft Research и Google Brain, перешла в стартап Hugging Face . Одной из главных причин смены работы стало желание вернуться к написанию кода. По словам Митчелл, в крупных корпорациях успех специалиста часто приводит к тому, что его рабочее время полностью поглощается совещаниями и синхронизацией внутри огромной иерархии . В стартапе она получила возможность заниматься как программированием инструментов с открытым исходным кодом, так и формированием культуры компании.

В Hugging Face Митчелл фокусируется на:

Она также анонсировала найм в компанию «настоящего этика» (real ethicist), подчеркнув, что до недавнего времени позиция специалиста по этике в ИИ-компаниях была большой редкостью .

📚 Эволюция работы с данными: От качества к количеству и обратно 5:13

Митчелл описывает историческую ретроспективу сбора данных для машинного обучения, выделяя несколько этапов:

  1. Эпоха корпусной лингвистики (1960-е): Данные собирались крайне бережно. Пример — Брауновский корпус . Разработчики следили за балансом тем (спорт, путешествия, фантастика) и строго соблюдали авторские права и лицензии создателей текста .
  2. Переход к вычислительной лингвистике (1990-е): Фокус сместился на размер датасетов. При этом права все еще соблюдались, поэтому основным источником стали архивы новостных агентств, предоставлявших легальный доступ .
  3. Эпоха Web 2.0 (2000-е — настоящее время): С появлением соцсетей и форумов возник подход laissez-faire (невмешательство). Исследователи начали массово «парсить» интернет, отдавая приоритет количеству над качеством .

Митчелл утверждает, что культура машинного обучения долгое время игнорировала долгосрочные последствия такого подхода. Сегодня она призывает вернуться к кураторству данных — процессу, в котором ценности закладываются в датасет еще на этапе его разработки .

⚖️ Права на данные и «цифровой труд» 15:30

Одной из самых острых тем дискуссии стала эксплуатация «цифрового труда». Люди, создающие контент в интернете, часто не подозревают, что их данные используются для обучения коммерческих моделей.

По мнению Митчелл, текущая ситуация напоминает эксплуатацию без согласия . Она выделяет следующие категории вреда:

Митчелл коснулась темы суверенитета данных (data sovereignty), особенно в контексте коренных народов. Она настаивает на том, что индивиды и сообщества должны иметь право распоряжаться своими данными, решать, как они будут использоваться, и давать явное согласие на их включение в обучающие выборки .

Особый интерес вызывает обсуждение законодательства Китая. Митчелл отмечает, что новые законы КНР о защите данных требуют получения согласия от человека, если его данные в датасете позволяют идентифицировать личность . Это выглядит иронично на фоне общей репутации Китая в сфере надзора, и Митчелл признает, что сама до конца не понимает мотивов такого шага, но считает это важным прецедентом .

📏 Квантификация этики: Инструменты измерения 28:44

Для реализации ответственного ИИ Митчелл разрабатывает методы автоматического измерения характеристик данных. Вместо субъективных оценок она предлагает использовать конкретные метрики:

Митчелл работает над концепцией Data Cards (карточки данных) — облегченной версией Data Sheets, предложенных Тимнит Гебру. Основная цель «карточек» — снизить порог входа для разработчиков. Если заполнение подробных опросников о протоколах компенсации краудворкеров кажется программистам слишком сложным, то автоматические отчеты, встроенные в платформу (как на Hugging Face), могут стать стандартом индустрии .

📉 Закон Ципфа и детекция токсичности 40:24

Интересным техническим нюансом дискуссии стало обсуждение закона Ципфа для оценки «естественности» датасетов. Согласно этому закону, частота слова в языке обратно пропорциональна его рангу в списке частотности . У каждого языка есть свой параметр (альфа), который определяет форму этой кривой.

Митчелл утверждает, что:

  1. Если датасет сильно отклоняется от идеального распределения Ципфа для конкретного языка, это признак того, что данные перегружены артефактами или плохо контролируемыми смешениями доменов .
  2. Эти же статистические методы «второго порядка» могут помочь отличить текст, написанный человеком, от сгенерированного ИИ, что критически важно для борьбы с троллями и дезинформацией .

🕵️ Проблема «недокументированных» моделей 37:36

Размер современных больших языковых моделей (LLM) стал их главной проблемой с точки зрения этики. Когда обучающая выборка — это «весь интернет», она становится недокументируемой . Это приводит к непредсказуемому поведению моделей: они начинают выдавать токсичный или предвзятый контент, и разработчики не могут отследить, откуда именно пришло это влияние.

В качестве примера Митчелл приводит датасет C4 (Colossal Clean Crawled Corpus). Значительная его часть взята из Википедии, где большинство редакторов — белые мужчины из Северной Америки в возрасте около 20 лет . В результате история темнокожего населения планеты представлена в таких моделях крайне скудно или искаженно. До недавнего времени в англоязычной Википедии запрос «Black history» перенаправлялся на статью «African-American history», что, по мнению Митчелл, наглядно демонстрирует культурную предвзятость .

💬 Цитаты

«В крупных компаниях успех часто приводит к тому, что кодинг заменяется бесконечными совещаниями, что противоположно тому, к чему вы стремитесь.»

Маргарет Митчелл 03:27

«Языковые модели становятся слишком большими, когда данные, на которых они обучаются, невозможно документировать.»

Маргарет Митчелл 37:49
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Стохастические попугаи
Метафора для больших языковых моделей, которые вероятностно комбинируют фрагменты текста, не понимая их смысла.
Закон Ципфа
Эмпирическая закономерность распределения частотности слов в естественном языке.
Data Cards
Краткие отчеты о характеристиках и происхождении данных, используемых в ML.
📊 Цифры
🗓 Хронология
  1. 1960-е Эпоха качественного отбора данных в корпусной лингвистике.
  2. 2021 Публикация статьи о стохастических попугаях и увольнение Митчелл из Google.
  3. 2022 Присоединение к Hugging Face в качестве первого ИИ-этика компании.
⚖️ Другая сторона
Искусственный интеллект Margaret Mitchell Hugging Face LLM Data Rights Stochastic Parrots