Профессор Хэл Доме о предвзятости ИИ: «Мы не можем строить технологии в отрыве от общества»

The TWIML AI Podcast 605 1 ч 6 мин 4 мин 29.07.2020
Главное

Технологии обработки естественного языка (NLP) перестали быть чисто математической задачей. Сегодня они неразрывно связаны с вопросами социальной справедливости, идентичности и власти. Хэл Доме, выдающийся исследователь из Университета Мэриленда и Microsoft Research, рассуждает о том, почему разработчикам ИИ необходимо выйти за рамки матричных вычислений и начать изучать труды социолингвистов и антропологов.

🎓 Путь от чистой математики к социальной лингвистике 0:00

Хэл Доме начал свою карьеру как математик в Университете Карнеги — Меллона. Долгое время он рассматривал NLP исключительно через призму алгоритмов и машинного обучения . Однако в последние годы его фокус сместился на вопросы этики, предвзятости и того, как язык конструирует человеческую идентичность .

По мнению Доме, язык выполняет в обществе две ключевые функции:

Доме вспоминает случай из своей жизни, когда на научной конференции коллега узнал в его речи диалект Лос-Анджелеса . Этот пример иллюстрирует концепцию «doing language» (делание языка): то, как мы говорим, является такой же важной частью сообщения, как и сам контент . Именно здесь кроется главная сложность для систем ИИ: попытки алгоритмически «исправить» предвзятость могут случайно лишить пользователей возможности выражать свою идентичность .

⚖️ Проблема «стерильных» данных и социальных стереотипов 12:31

Одной из самых горячо обсуждаемых тем в сообществе ИИ является предвзятость алгоритмов. Доме подчеркивает, что проблема гораздо глубже, чем просто наличие «плохих слов» в обучающей выборке. Язык пропитан «социальным багажом», который системы ИИ неизбежно впитывают .

Гость приводит примеры скрытых опасностей:

Доме утверждает, что просто «добавить больше данных» — не панацея. Он критикует современный подход, в котором эксперты предметных областей выступают лишь как «разметчики», поставляющие данные в «черный ящик» машинного обучения . По его словам, это крайне редуктивный (упрощенный) взгляд .

📖 Исследование: «Технология языка — это власть» 25:39

Обсуждая свою недавнюю работу (совместно с Сулейн Блоджетт, Слоаном Брокусом и Ханной Уоллак), Доме отмечает системные проблемы в академических статьях о предвзятости в NLP . Проанализировав 150 работ, исследователи обнаружили, что авторы часто используют расплывчатые формулировки типа «стереотипы — это плохо», не объясняя их нормативную основу .

Ключевые выводы исследования:

🛠 Практические инструменты и «Виджиланте справедливости» 40:36

Переходя от теории к практике, Доме описывает, как крупные корпорации пытаются бороться с предвзятостью. Он упоминает термин fairness vigilantes («виджиланте справедливости») — это энтузиасты внутри команд разработчиков, которые часто на голом альтруизме и в нерабочее время пытаются исправлять этические огрехи систем .

Для системного решения проблемы Доме предлагает три уровня изменений:

  1. Культурный: внесение критериев справедливости в систему оценки сотрудников и продвижения по службе .
  2. Процессный: создание чек-листов и механизмов обмена опытом между разными командами (например, между разработчиками распознавания речи и машинного перевода) .
  3. Технологический: использование инструментариев от Microsoft, Google и IBM для проверки моделей на равенство показателей (parity metrics) .

Особое внимание Доме уделяет проблеме «слепых зон» (blind spots). Часто системы выпускаются в свет, и только через 24 часа из статьи в New York Times разработчики узнают, что их алгоритм ведет себя некорректно в непредвиденной ситуации .

🏳️‍🌈 Гендерная инклюзивность и новые вызовы 52:32

Одним из самых актуальных направлений работы Доме является разрешение кореференции (определение того, к кому относится местоимение) в контексте гендерной инклюзивности . Большинство систем обучалось на архивах газет типа Wall Street Journal, где долгое время не использовалось местоимение they в единственном числе для небинарных персон .

В результате современных тестов выяснилось:

Доме призывает сообщество ИИ прекратить попытки «изобрести синтаксис» или «изобрести гендер» в вакууме. Вместо этого нужно обращаться к десятилетиям наработок в области гендерных исследований и квир-теории, так же как ранее разработчики использовали труды лингвистов для создания синтаксических парсеров .

💬 Цитаты

«То, как мы делаем язык (doing language), является такой же частью сообщения, как и сам контент.»

«Если я строю технологию, которая полезна только в мире, который социально сконструирован иначе, чем наш, это в лучшем случае бесполезно, в худшем — вредно.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Разрешение кореференции
Задача ИИ по определению того, к какому объекту или человеку относится местоимение в тексте.
Эмбеддинги слов (Word Embeddings)
Способ представления слов в виде векторов чисел, где похожие по смыслу слова находятся рядом в математическом пространстве.
Местоимение 'they' в единственном числе
Использование местоимения 'они' по отношению к одному человеку, который не идентифицирует себя как мужчина или женщина.
📊 Цифры
🗓 Хронология
  1. 2007 Хэл Доме проходит стажировку в Microsoft во время учебы в аспирантуре.
  2. Июль 2020 Разговор записан накануне конференции ICML 2020.
⚖️ Другая сторона
Искусственный интеллект Hal Daumé III NLP Microsoft Research Machine Learning Fairness Sociolinguistics