# Вирджиния Смит о федеративном обучении: баланс справедливости и робастности

Источник: https://www.youtube.com/watch?v=vv8v0fdWBUE
Канал: The TWIML AI Podcast
Опубликовано: 26.07.2021

---

В новом выпуске подкаста The TWIML AI Podcast ведущий обсудил с ассистент-профессором Университета Карнеги — Меллона Вирджинией Смит (Virginia Smith) ключевые вызовы и технологические барьеры в сфере федеративного обучения. Исследовательница подробно описала механизмы поиска баланса между справедливостью алгоритмов, их устойчивостью к хакерским атакам и конфиденциальностью данных на миллионах клиентских устройств. В центре внимания оказались новые подходы к персонализации моделей машинного обучения и неожиданные сценарии, в которых естественная неоднородность данных начинает помогать распределенным системам вместо того, чтобы разрушать их.

## 🎓 От математики к крупномасштабной оптимизации
[[JUMP:0:01]]

Путь Вирджинии Смит в сферу искусственного интеллекта начался с глубокого увлечения чистой математикой. Во время учебы в бакалавриате она стремилась брать как можно больше математических курсов, однако ее всегда занимал вопрос практического применения этих теоретических знаний. Перед выпускным курсом Смит впервые познакомилась с компьютерными науками и, по ее собственным словам, абсолютно влюбилась в это направление. Это предопределило тему ее будущей докторской диссертации (PhD), которая легла на стык математики и вычислительной техники.

Период начала ее работы над диссертацией совпал с глобальным бумом концепции Big Data («больших данных») и стремительным взлетом глубокого обучения. В то время академическое сообщество и индустрия были сфокусированы преимущественно на двух показателях моделей:

* Максимизация точности предсказаний;
* Повышение вычислительной эффективности алгоритмов.

Смит сосредоточилась на методах распределенного обучения и распределенной оптимизации. Ее целью было масштабирование уже известных алгоритмов машинного обучения, эффективно работавших в малом масштабе, для применения в огромных дата-центрах на колоссальных массивах информации. 

Однако со временем, как отмечает исследовательница, пришло понимание, что большие данные не просто огромны по объему — они чрезвычайно сложны структурно. Одной лишь погони за эффективностью и точностью оказалось недостаточно. В своих актуальных проектах Смит сместила фокус на исследование сопутствующих ограничений реального мира, среди которых:

* Робастность (устойчивость к сбоям и атакам);
* Справедливость (Fairness) алгоритмов;
* Конфиденциальность пользовательской информации (Privacy).

Идеальной прикладной областью, обнажающей все эти проблемы одновременно, стало федеративное обучение. Этот подход позволяет выйти за пределы стерильной среды централизованных дата-центров и обучать ИИ напрямую на распределенных сетях удаленных устройств или внутри изолированных корпоративных хранилищ.

## 📱 Дихотомия федеративного обучения: Cross-Device против Cross-Silo
[[JUMP:2:08]]

В современной исследовательской практике федеративного обучения, по словам Смит, сформировалось важное разделение на два фундаментальных типа архитектуры. Они различаются по масштабу, доступной вычислительной мощности и специфике подходов к безопасности.

Первое направление — это **cross-device федеративное обучение**. В данном сценарии глобальная модель обучается на базе гигантской сети, состоящей из тысяч или миллионов удаленных клиентских устройств (например, мобильных телефонов или гаджетов интернета вещей). Каждый отдельный узел такой сети жестко ограничен в вычислительных ресурсах и пропускной способности каналов связи. Именно в этой парадигме Вирджиния Смит проводит большую часть своих изысканий.

Второе направление — **cross-silo федеративное обучение**. Здесь обучение происходит в конфиденциальном режиме, но не на потребительских смартфонах, а на базе нескольких крупных организаций. В качестве примера Смит приводит консорциум из 10 медицинских клиник или финансовых институтов. В этой конфигурации каждый узел обладает серьезными вычислительными мощностями (серверами), но организации категорически не могут напрямую делиться сырыми данными клиентов друг с другом из-за юридических ограничений и коммерческой тайны.

Ведущий подкаста предположил, что ключевое различие между этими подходами можно свести к характеру приватности: защита отношений «один ко многим» в случае с миллионами устройств против защиты «нескольких с несколькими» в корпоративном сегменте. Смит частично согласилась, уточнив, что математические цели распределенного обучения в обоих случаях схожи, однако масштаб сети и аппаратные лимиты узлов создают совершенно разные инженерные вызовы.

Приватность в федеративном обучении Смит называет «гражданином первого класса» и главным мотиватором развития всей технологии. Разработчики осознанно отказываются от перемещения сырых данных пользователей на центральный сервер, оставляя их локальными. Однако это колоссально усложняет математическую сторону процесса. Необходимо гарантировать, что технические параметры и обновления весов модели, которые устройства отправляют по сети на центральный сервер для агрегации, сами по себе не станут источником утечки чувствительной информации.

## ⚖️ Справедливость в федеративных сетях и проблема репрезентативности
[[JUMP:6:40]]

Понятие «справедливости» (fairness) в контексте федеративного обучения существенно отличается от привычных дискуссий об этике ИИ и предвзятости в социуме. Смит подчеркивает, что в распределенных технических системах этот термин имеет строгое математическое выражение и напрямую связан с феноменом диспропорции репрезентативности (representation disparity).

В федеративной сети устройства пользователей крайне гетерогенны (неоднородны). Люди взаимодействуют со своими смартфонами по-разному, генерируя уникальные паттерны данных. Смит приводит понятный пример: текстовый или визуальный контент на мобильных телефонах двух разных пользователей может кардинально отличаться по структуре, языку или качеству. При этом цель инженеров — создать единую модель, которая обеспечит стабильно высокое качество обслуживания (Quality of Service) для абсолютно любого участника сети.

Если применять стандартные методы оптимизации без явного учета фактора справедливости, система неизбежно столкнется с критическими сбоями. По словам Смит, стандартной процедурой при обучении ИИ является минимизация эмпирического риска (Empirical Risk Minimization, ERM). Этот математический подход ориентирован исключительно на минимизацию *средней* ошибки по всей сети. 

В результате возникает опасный failure-mode (режим отказа):

* Модель демонстрирует великолепные показатели точности в среднем по больнице;
* Этот успех достигается за счет катастрофического падения точности на небольших субпопуляциях или уникальных устройствах.

Если небольшая группа пользователей генерирует данные, отличные от мейнстрима, классический алгоритм ERM фактически «пожертвует» их интересами ради улучшения глобальной средней метрики. Смит утверждает, что одна универсальная модель физически не способна вместить в себя все многообразие гетерогенной сети. Ситуация усугубляется тем, что на смартфонах запускаются компактные, урезанные нейросети, которые должны работать в реальном времени и не вызывать перегрева процессора, что жестко лимитирует их емкость.

## 🛡️ Конфликт справедливости и робастности: решение через многозадачное обучение
[[JUMP:11:15]]

Вторым критически важным свойством распределенной системы является робастность — устойчивость к аппаратным сбоям (например, внезапному отключению телефона пользователем) или к целенаправленным атакам злоумышленников, отправляющих вредоносные, искаженные данные. 

Исследования Вирджинии Смит выявили фундаментальный конфликт между робастностью и справедливостью в федеративных сетях. Стандартный и самый простой способ обеспечить устойчивость модели к атакам — найти в потоке обновлений аномальные, сильно выбивающиеся из общей массы данные (аутлайеры) и полностью исключить их из процесса обучения. 

Однако с точки зрения концепции справедливости, именно эти аномальные на первый взгляд данные могут принадлежать легитимному, но уникальному пользователю с нестандартным поведением. Если система безопасности отбросит их как «мусор» или «атаку», эта группа пользователей никогда не получит качественную модель. 

Для разрешения этого тупика команда Смит предложила использовать аппарат многозадачного обучения (Multi-Task Learning). Вместо бесплодных попыток обучить одну идеальную глобальную модель для всех, исследователи предложили концепцию персонализации ИИ под конкретные локальные задачи. 

В рамках данной работы под «задачей» (task) понимается не принципиально иной тип деятельности (как одновременное распознавание текста и картинок в классическом Deep Learning), а обучение ИИ под специфику распределенного датасета конкретного смартфона. Модель решает одну и ту же базовую задачу (например, классификацию изображений), но адаптируется под локальный контекст.

Математическая архитектура метода, описанная Смит, состоит из двух ключевых компонентов:

1.  **Глобальный компонент** — базовая модель, аккумулирующая общие знания всей сети;
2.  **Локальный компонент** — персонализированная надстройка, обучающаяся только на данных конкретного устройства.

Баланс между ними регулируется простым и понятным гиперпараметром $\lambda$ (лямбда). Этот параметр настраивается полностью локально на самом устройстве с использованием валидационной выборки пользователя, без отправки личной информации наружу. 

Подобное разделение эффективно решает проблему конфликта робастности и справедливости. Если в сети появляется хакер или устройство со сломанным датчиком, генерирующее поврежденные данные, под них подстраивается локальная модель этого конкретного узла. Вредоносный эффект локализуется и не отравляет глобальный компонент, а значит — не портит персонализированные модели добросовестных пользователей в других частях сети. При этом на сервер передаются не сырые данные, а бережно отфильтрованные и курированные обновления весов.

## 📊 Оценка систем: бенчмарк Leaf и метрики эффективности
[[JUMP:21:22]]

Поскольку федеративное обучение является развивающейся дисциплиной, Смит считает критически важным создание строгих стандартизированных инструментов для валидации алгоритмов. Чтобы решить проблему отсутствия единых критериев, она совместно с коллегами из Университета Карнеги — Меллона и инженерами компании Google разработала открытый бенчмарк **Leaf**.

Leaf представляет собой комплексное модульное решение для разработчиков, которое включает в себя:

* Набор открытых реалистичных датасетов, воссоздающих сценарии из реальной практики федеративного обучения;
* Систему метрик для одновременного замера средней точности и показателей справедливости алгоритмов.

Полноценное тестирование алгоритмов на миллионах реальных смартфонов технически затруднено. На практике разработчики чаще всего используют эмуляцию: процессы симулируются внутри мощного централизованного дата-центра, после чего полученные метрики масштабируются с учетом математических моделей реальных сетевых задержек и ограничений устройств. Также Смит упомянула конкурирующие и комплементарные инструменты, в частности фреймворк *TensorFlow Federated* от Google, который упрощает написание кода, способного физически исполняться на чипах конечных устройств.

Отвечая на вопрос ведущего о существовании общепринятого аналога метрики BLEU для оценки справедливости и устойчивости в сетях, Смит признала, что стандарты все еще эволюционируют. Тем не менее, в академической среде закрепились два прозрачных подхода к оценке справедливости:

1.  **Дисперсия распределения точности** — измеряется разброс (вариативность) качества работы ИИ между всеми устройствами в сети. Чем ниже дисперсия, тем более однородным и справедливым является сервис.
2.  **Минимаксная точность (Minimax performance)** — алгоритм оценивается по качеству работы на самом худшем, наименее удачливом устройстве сети. Цель оптимизации — поднять этот минимальный порог как можно выше.

Для оценки робастности исследователи замеряют просадку эффективности ИИ при симуляции различных негативных факторов: от банального выпадения узлов из сети (device dropouts) до сложных целенаправленных атак по отравлению данных или моделей (data/model poisoning attacks), перекочевавших из централизованного машинного обучения.

## 🧩 Неконтролируемое обучение и неожиданная польза неоднородности данных
[[JUMP:25:20]]

Еще одна значимая научная работа Вирджинии Смит, представленная на конференции ICML, посвящена федеративному обучению в условиях отсутствия разметки (Unsupervised Federated Learning). В реальном мире данные на смартфонах пользователей (фотографии, текстовые заметки, аудиозаписи) почти никогда не имеют идеальных экспертных тегов и меток. Поэтому Смит сфокусировалась на задаче децентрализованной кластеризации данных.

Обычно неоднородность (гетерогенность) данных воспринимается разработчиками как тяжелое бремя: она ломает математические допущения классических методов распределенной оптимизации, снижает скорость сходимости алгоритмов и порождает несправедливость. Однако в контексте кластеризации команда Смит совершила контринтуитивное открытие: гетерогенность может быть чрезвычайно полезной.

Исследователи разработали алгоритм под названием **Federated Clustering**. Это одношаговая (one-shot) коммуникационная схема, представляющая собой распределенную модификацию классического метода Ллойда (Lloyd's method) для алгоритма $k$-means. Процесс устроен следующим образом:

1.  Каждое устройство проводит быструю кластеризацию своих данных локально;
2.  Параметры этих локальных кластеров отправляются на центральный сервер;
3.  Сервер осуществляет финальное объединение локальных результатов в единую глобальную карту кластеров.

Магия подхода, по мнению Смит, заключается в том, что если данные на устройствах изначально сильно отличаются и разделены природой, этот алгоритм работает гораздо эффективнее и быстрее, чем на случайно перемешанных, идентично распределенных (IID) данных. В своей статье ученые ввели жесткое теоретическое допущение: если в мире есть, к примеру, 100 скрытых глобальных кластеров данных, то каждый конкретный пользователь на своем устройстве обладает информацией максимум из 3 кластеров. 

Такая естественная изоляция делает задачи локальной кластеризации математически независимыми (дедуплицированными), облегчая и удешевляя финальную сборку на сервере. В этом и кроется фундаментальное отличие от традиционных дата-центров, где инженеры могут произвольно тасовать и перемешивать данные для достижения однородности (IID). В федеративной среде данные берутся «как есть», и распределение каждого устройства уникально.

Ведущий подкаста озвучил интересную гипотезу: можно ли развить эту идею до трехуровневой иерархической модели? Схема выглядела бы так: глобальный сервер $\rightarrow$ промежуточные кластеры похожих устройств $\rightarrow$ конкретные гаджеты. Вместо одного параметра $\lambda$ система управлялась бы двумя. Смит назвала эту идею крайне перспективной и логичной, отметив, что группировка пользователей в промежуточные кластеры способна радикально снизить объемы сетевого трафика, поскольку устройствам больше не придется постоянно связываться с единым центральным сервером.

## 🔮 Будущее исследований: пересечение конфиденциальности и персонализации
[[JUMP:37:27]]

В финале беседы Вирджиния Смит поделилась планами на будущие исследования, выделив в качестве приоритета интеграцию математических гарантий приватности в разработанные ею персонализированные модели. В централизованном ИИ золотым стандартом защиты от утечек является технология дифференциальной конфиденциальности (Differential Privacy, DP). Она гарантирует, что по поведению готовой нейросети невозможно вычислить, участвовал ли конкретный человек в обучении или нет.

Однако на стыке дифференциальной конфиденциальности и многозадачного (персонализированного) обучения сейчас зияет огромный пробел. Математические аппараты этих двух концепций пока плохо согласуются друг с другом. Ближайшая цель Смит и ее лаборатории — создать строгие математические фреймворки, которые позволят инженерам будущего одновременно удовлетворять все жесткие требования реального мира: делать модели быстрыми, точными, справедливыми к меньшинствам, устойчивыми к атакам хакеров и при этом абсолютно конфиденциальными.