# Ян Лекун против Twitter: почему «белый Обама» вызвал скандал в мире ИИ

Источник: https://www.youtube.com/watch?v=n1SXlK5rhR8
Канал: Yannic Kilcher
Опубликовано: 22.06.2020

---

В июне 2020 года в сообществе исследователей искусственного интеллекта разгорелся масштабный спор, вызванный публикацией алгоритма Pulse. Поводом для конфликта стала некорректная работа нейросети с изображением Барака Обамы, переросшая в глубокую дискуссию о природе предвзятости (bias) в машинном обучении и ответственности учёных.

## 🖼️ Алгоритм Pulse и «белый Обама»
[[JUMP:0:00]]

Технология Pulse, представленная на конференции CVPR, предназначена для апсемплинга — создания реалистичного изображения высокого разрешения из сильно пикселизированного исходника [0:00]. Алгоритм работает на основе генеративно-состязательных сетей (GAN) и принципа «циклической согласованности»: результат должен быть таким, чтобы при обратном сжатии он в точности соответствовал исходному пикселизированному кадру [0:12].

Проблемы начались, когда пользователи стали тестировать систему на лицах известных людей. В частности, при обработке сильно размытого фото Барака Обамы нейросеть выдала изображение мужчины с типично европейскими чертами лица [1:24].

По мнению Янника Килхера, этот результат был ожидаемым:

*   Система обучалась на датасете Flickr-Faces-HQ (FFHQ).
*   Данный набор данных состоит преимущественно из лиц европеоидной расы.
*   При выходе за пределы модальности обучающей выборки нейросеть начинает выдавать некорректные или «усреднённые» по её мнению результаты [1:10].

## 🧠 Позиция Яна Лекуна: «Виноваты данные»
[[JUMP:1:38]]

Один из пионеров глубокого обучения Ян Лекун прокомментировал ситуацию в Twitter, заявив, что предвзятость систем машинного обучения напрямую проистекает из предвзятости данных [1:38]. По его мнению, если бы ту же систему обучили на датасете из Сенегала, результат апсемплинга всегда имел бы африканские черты лица [1:51].

Янник Килхер в своём анализе разделяет два типа предвзятости:

1.  **Статистическая предвзятость** — строгое математическое определение. Она возникает, когда результат модели не отражает распределение входных данных из-за архитектуры модели, функции потерь или процесса оптимизации (например, при регуляризации для снижения дисперсии) [2:43].
2.  **Социальная предвзятость** — когда системы, например, распознавания лиц, работают хуже для определённых этнических групп [3:48].

Килхер утверждает, что социальная предвзятость может содержаться только в датасете [4:03]. По его словам, другие части конвейера (модель или оптимизация) могут лишь усиливать или смягчать её, но сами по себе они «социально нейтральны» [4:30]. С этой точки зрения Ян Лекун прав: для решения конкретной проблемы с Pulse достаточно заменить или сбалансировать обучающую выборку [5:11].

## ⚖️ Исследователи против инженеров
[[JUMP:5:25]]

В ходе дискуссии возник вопрос ответственности. Ян Лекун возразил оппонентам, указав на разницу между наукой и производством. По мнению Лекуна, ответственность за предвзятость лежит в первую очередь на инженерах, внедряющих продукты, а не на исследователях, описывающих методы в академических работах [5:38].

С этим тезисом не согласились многие участники дискуссии. По словам Ашиша Васвани (Ashish Vaswani), современные исследователи часто невольно «питают» продукты не-технологических компаний, которые бездумно используют предобученные модели типа BERT или ResNet из интернета, игнорируя контекст их создания [6:05]. Таким образом, академическая работа может иметь прямые негативные последствия в реальном мире.

## 🌩️ Реакция сообщества и этика ИИ
[[JUMP:7:37]]

Заявление Лекуна вызвало резкую критику со стороны экспертов по этике ИИ. Тимнит Гебру (Timnit Gebru) призвала учёного не сводить все проблемы только к датасетам и «послушать представителей маргинализированных сообществ» [7:51]. Она утверждает, что вред от ИИ — гораздо более сложное явление, которое нельзя решить простой заменой данных.

Николя Ле Ру (Nicolas Le Roux), входивший ранее в диссертационный совет Лекуна, также выразил несогласие, назвав «постоянное пренебрежение вредом, наносимым сообществом ML», глубоко проблематичным [8:18]. По мнению Ле Ру:

*   Причины предвзятости многочисленны.
*   Фокус исключительно на данных отвлекает внимание от системных проблем в области ИИ [8:44].

Ян Лекун в ответ подчеркнул, что он не отрицает существования других проблем, но настаивает на эффективности технического решения. По его словам, выравнивание частоты категорий в выборке — гораздо более действенный метод, чем «хакинг» функций потерь (Loss function) [11:47].

## 🕵️ Технология слежки или инструмент спасения?
[[JUMP:12:00]]

Мередит Уиттакер (Meredith Whittaker) высказала ещё более радикальную точку зрения, назвав технологию Pulse «расистской» по своей сути [12:00]. С её точки зрения, подобные системы предназначены для того, чтобы власть могла контролировать и выслеживать людей, и никакие «разнообразные датасеты» этого не изменят [12:12].

Янник Килхер возражает против такой категоричности. Он приводит контраргументы:

*   Pulse не восстанавливает реальное лицо человека по пикселям, а лишь генерирует «наиболее вероятное» лицо на основе статистики. Поэтому технология малопригодна для опознания преступников полицией [12:25].
*   Подобные системы могут использоваться в мирных целях, например, для поиска пропавших детей по некачественным записям с камер видеонаблюдения [12:39].

## 📉 Риски для научной среды
[[JUMP:13:06]]

Подводя итог, Килхер призывает прекратить «охоту на ведьм» в отношении Яна Лекуна [13:06]. Он считает, что агрессивная критика за отсутствие упоминания всех возможных социальных проблем в каждом техническом твите вредит науке.

По мнению Килхера, это приведет к негативным последствиям для отрасли:

*   Маленькие лаборатории, не имеющие ресурсов для создания идеально сбалансированных датасетов, побоятся публиковать код или исследования из-за страха критики [13:32].
*   Это даст преимущество только гигантским корпорациям с огромными бюджетами [13:45].

Ведущий подчеркнул, что важно иметь возможность обсуждать конкретные технические решения проблем, не превращая каждую дискуссию в дебаты об идеологической ортодоксии [13:59].