Ян Лекун против Twitter: почему «белый Обама» вызвал скандал в мире ИИ

Yannic Kilcher 30,4 тыс. 14 мин 4 мин 22.06.2020
Главное

В июне 2020 года в сообществе исследователей искусственного интеллекта разгорелся масштабный спор, вызванный публикацией алгоритма Pulse. Поводом для конфликта стала некорректная работа нейросети с изображением Барака Обамы, переросшая в глубокую дискуссию о природе предвзятости (bias) в машинном обучении и ответственности учёных.

🖼️ Алгоритм Pulse и «белый Обама» 0:00

Технология Pulse, представленная на конференции CVPR, предназначена для апсемплинга — создания реалистичного изображения высокого разрешения из сильно пикселизированного исходника . Алгоритм работает на основе генеративно-состязательных сетей (GAN) и принципа «циклической согласованности»: результат должен быть таким, чтобы при обратном сжатии он в точности соответствовал исходному пикселизированному кадру .

Проблемы начались, когда пользователи стали тестировать систему на лицах известных людей. В частности, при обработке сильно размытого фото Барака Обамы нейросеть выдала изображение мужчины с типично европейскими чертами лица .

По мнению Янника Килхера, этот результат был ожидаемым:

🧠 Позиция Яна Лекуна: «Виноваты данные» 1:38

Один из пионеров глубокого обучения Ян Лекун прокомментировал ситуацию в Twitter, заявив, что предвзятость систем машинного обучения напрямую проистекает из предвзятости данных . По его мнению, если бы ту же систему обучили на датасете из Сенегала, результат апсемплинга всегда имел бы африканские черты лица .

Янник Килхер в своём анализе разделяет два типа предвзятости:

  1. Статистическая предвзятость — строгое математическое определение. Она возникает, когда результат модели не отражает распределение входных данных из-за архитектуры модели, функции потерь или процесса оптимизации (например, при регуляризации для снижения дисперсии) .
  2. Социальная предвзятость — когда системы, например, распознавания лиц, работают хуже для определённых этнических групп .

Килхер утверждает, что социальная предвзятость может содержаться только в датасете . По его словам, другие части конвейера (модель или оптимизация) могут лишь усиливать или смягчать её, но сами по себе они «социально нейтральны» . С этой точки зрения Ян Лекун прав: для решения конкретной проблемы с Pulse достаточно заменить или сбалансировать обучающую выборку .

⚖️ Исследователи против инженеров 5:25

В ходе дискуссии возник вопрос ответственности. Ян Лекун возразил оппонентам, указав на разницу между наукой и производством. По мнению Лекуна, ответственность за предвзятость лежит в первую очередь на инженерах, внедряющих продукты, а не на исследователях, описывающих методы в академических работах .

С этим тезисом не согласились многие участники дискуссии. По словам Ашиша Васвани (Ashish Vaswani), современные исследователи часто невольно «питают» продукты не-технологических компаний, которые бездумно используют предобученные модели типа BERT или ResNet из интернета, игнорируя контекст их создания . Таким образом, академическая работа может иметь прямые негативные последствия в реальном мире.

🌩️ Реакция сообщества и этика ИИ 7:37

Заявление Лекуна вызвало резкую критику со стороны экспертов по этике ИИ. Тимнит Гебру (Timnit Gebru) призвала учёного не сводить все проблемы только к датасетам и «послушать представителей маргинализированных сообществ» . Она утверждает, что вред от ИИ — гораздо более сложное явление, которое нельзя решить простой заменой данных.

Николя Ле Ру (Nicolas Le Roux), входивший ранее в диссертационный совет Лекуна, также выразил несогласие, назвав «постоянное пренебрежение вредом, наносимым сообществом ML», глубоко проблематичным . По мнению Ле Ру:

Ян Лекун в ответ подчеркнул, что он не отрицает существования других проблем, но настаивает на эффективности технического решения. По его словам, выравнивание частоты категорий в выборке — гораздо более действенный метод, чем «хакинг» функций потерь (Loss function) .

🕵️ Технология слежки или инструмент спасения? 12:00

Мередит Уиттакер (Meredith Whittaker) высказала ещё более радикальную точку зрения, назвав технологию Pulse «расистской» по своей сути . С её точки зрения, подобные системы предназначены для того, чтобы власть могла контролировать и выслеживать людей, и никакие «разнообразные датасеты» этого не изменят .

Янник Килхер возражает против такой категоричности. Он приводит контраргументы:

📉 Риски для научной среды 13:06

Подводя итог, Килхер призывает прекратить «охоту на ведьм» в отношении Яна Лекуна . Он считает, что агрессивная критика за отсутствие упоминания всех возможных социальных проблем в каждом техническом твите вредит науке.

По мнению Килхера, это приведет к негативным последствиям для отрасли:

Ведущий подчеркнул, что важно иметь возможность обсуждать конкретные технические решения проблем, не превращая каждую дискуссию в дебаты об идеологической ортодоксии .

💬 Цитаты

«ML-системы предвзяты, когда предвзяты данные.»

«Я привыкла к тому, что белые мужчины отказываются взаимодействовать с чернокожими и смуглыми женщинами даже по вопросам предвзятости, которые в основном касаются нас.»

Тимнит Гебру 10:15
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Pulse
Алгоритм для восстановления четких изображений из пикселизированных картинок.
Bias (Предвзятость)
Смещение результатов модели, возникающее из-за ошибок в данных или алгоритме.
GAN (Генеративно-состязательная сеть)
Тип нейросети, где две модели (генератор и дискриминатор) соревнуются друг с другом.
Апсемплинг
Увеличение разрешения цифрового изображения.
📊 Цифры
🗓 Хронология
  1. Июнь 2020 Публикация алгоритма Pulse и начало дискуссии в Twitter с участием Яна Лекуна.
⚖️ Другая сторона
Искусственный интеллект Ян Лекун Twitter Pulse Timnit Gebru Dataset Bias