# Йа Сюй из LinkedIn о культуре данных: от 500 одновременных экспериментов до дифференциальной приватности

Источник: https://www.youtube.com/watch?v=R7bwPFz3qDM
Канал: The TWIML AI Podcast
Опубликовано: 08.09.2022

---

В эпоху стремительного развития искусственного интеллекта крупные технологические компании сталкиваются с уникальными вызовами архитектуры команд и этики данных. Йа Сюй (Ya Xu), возглавляющая отдел Data Science в LinkedIn, в интервью для подкаста TWIML AI делится опытом управления командой из 350 специалистов и объясняет, почему для успеха платформы одинаково важны и продвинутые алгоритмы дифференциальной приватности, и культура внутреннего чемпионства.

## 📈 Путь от теории графов к управлению данными в LinkedIn
[[JUMP:01:10]]

Карьера Йа Сюй началась с глубокой академической подготовки: она получила докторскую степень (Ph.D.) по статистике в Стэнфорде [01:22]. Несмотря на теоретическую направленность программы, Сюй всегда тяготела к прикладному аспекту, посвятив свою диссертацию полуавтоматическому обучению (semi-supervised learning) на графах [02:05].

Ее профессиональный путь в индустрии начался в Microsoft, после чего она перешла в LinkedIn, где работает уже около восьми лет [02:50]. Первые годы Сюй занималась вопросами инфраструктуры и создания инструментов «горизонтального» уровня — платформ, которыми пользуются другие инженеры. Около четырех лет назад она совершила переход от индивидуального вклада в разработку к управлению, возглавив глобальную команду Data Science под руководством директора по данным (Chief Data Officer) компании [03:51].

Сегодня её команда — это централизованное подразделение, которое работает по принципу «внедрения» (embedded model) [05:21]:

*   **Продуктовые группы:** специалисты работают внутри команд поиска, ленты (feed), обмена сообщениями и поиска работы.
*   **Бизнес-вертикали:** оптимизация маркетинговых бюджетов и работа с отделом продаж для прогнозирования оттока клиентов [06:31].
*   **Инфраструктура:** оптимизация расписания заданий Hadoop для снижения пиковых нагрузок на память и хранилище [06:59].

## 🛠 Дилемма централизации: почему LinkedIn не распределяет специалистов
[[JUMP:08:05]]

Вопрос о том, должна ли команда Data Science быть централизованной или распределенной по разным бизнес-юнитам, является ключевым для индустрии. По мнению Йа Сюй, для команд до пяти человек централизация обязательна для обеспечения карьерного роста и обмена опытом [08:58]. Для гигантских организаций с тысячами специалистов логичнее создавать «центры передового опыта» (centers of excellence) внутри каждого юнита.

LinkedIn придерживается промежуточной модели. При штате в 300–350 человек команда остается единой организацией, что дает ряд преимуществ:

1.  **Рычаг влияния (Leverage):** возможность создавать единые инструменты, которые подходят всем, имея общую картину потребностей компании [10:04].
2.  **Борьба с «изоляцией экспертов»:** риск централизованной команды — решать красивые, но бесполезные для бизнеса задачи [11:07]. Модель LinkedIn нивелирует это тем, что специалисты одной ногой стоят в доменной области (бизнесе), а другой — в профессиональном сообществе аналитиков данных [11:47].

## 🤝 Конфликты и синергия: как помирить «платформу» и «приложение»
[[JUMP:12:40]]

Сюй выделяет две крайности в отношениях между командами инфраструктуры (платформы) и прикладными разработчиками: либо платформа слепо берет заказы, не думая об архитектуре, либо полностью игнорирует нужды пользователей, создавая инструменты в «вакууме» [14:13].

Для решения этой проблемы в LinkedIn используют «модель чемпионов» (champion model) [16:50]:

*   При запуске новой платформы не нужно пытаться заставить всех 10 потенциальных потребителей перейти на неё сразу.
*   Необходимо найти 2–3 команды, которые уже выразили интерес, и сделать их «счастливыми», оперативно исправляя ошибки [17:15].
*   Как только 4 из 10 команд покажут реальную выгоду от использования инструмента, остальные 6 «встанут в очередь» сами [17:54].

Также Сюй подчеркивает важность роли **SME (Subject Matter Experts)** — экспертов внутри прикладных команд, которые знают возможности платформы и выступают фильтром для запросов на новые функции, предотвращая хаотичное разрастание инфраструктуры [19:27].

## 🧪 Культура экспериментов: от интуиции к данным
[[JUMP:26:38]]

Восемь лет назад в LinkedIn не было единой платформы для A/B тестирования. Йа Сюй вспоминает случай, когда запуск новой ML-модели показал 10% рост выручки в эксперименте, но финансовый отдел не увидел этого роста в реальных отчетах компании [29:12]. Это привело к необходимости временного отката фичи, чтобы увидеть реальное падение показателей и доказать эффективность алгоритма.

Сегодня ситуация кардинально иная:

*   Одновременно запущено около **500 экспериментов** [30:04].
*   Любое изменение продукта проходит через A/B тесты.
*   Для каждого запуска отслеживается более **1000 метрик** [30:30].

Это изменило саму культуру компании: вместо споров двух менеджеров, чья интуиция лучше, команда просто проводит тест [32:15]. Сюй отмечает, что даже продуктовые цели теперь формулируются через метрики платформы экспериментов, что позволяет изолировать реальное влияние конкретной модели от внешних рыночных факторов [34:48].

## 🛡 Дифференциальная приватность: золотой стандарт будущего
[[JUMP:35:42]]

Приватность данных Йа Сюй называет одним из главных факторов технологической деструкции (disruption) [36:09]. Она подчеркивает, что простых методов анонимизации (удаление имен) недостаточно: исследования показывают, что 87% населения США можно однозначно идентифицировать, зная только их дату рождения, пол и почтовый индекс [38:46].

LinkedIn сделал ставку на **дифференциальную приватность** — метод, при котором результат анализа данных остается практически неизменным независимо от того, включена ли в выборку информация о конкретном индивиде [39:38].

Основные тезисы Сюй о приватности:

1.  **Готовность технологии:** Сюй утверждает, что дифференциальная приватность уже готова к массовому внедрению, приводя в пример Бюро переписи населения США (Census Bureau), которое использует этот метод [42:36].
2.  **Эффективность против полезности:** Главная сложность — выбор параметра «эпсилон» ($\epsilon$), который определяет баланс между уровнем шума (защитой) и полезностью данных для бизнеса [43:43].
3.  **Применение в LinkedIn:** Технология используется в отчетах для рекламодателей и при публикации внешней статистики о трендах на рынке труда, чтобы гарантировать невозможность обратного восстановления данных о пользователях [41:15].

## 🛠 Технологический стек LinkedIn: инструменты масштаба
[[JUMP:45:51]]

В завершение интервью Йа Сюй перечислила ключевые платформы, которые обеспечивают работу Data Science в компании:

*   **ML Platform:** гибкая среда, позволяющая быстро внедрять новые исследования и бесшовно переходить от офлайн-обучения к онлайн-обслуживанию [47:50].
*   **DataHub:** открытая платформа для каталогизации метаданных. Она позволяет отслеживать происхождение данных (lineage), видеть, откуда пришел конкретный признак (feature) и как он менялся, что критично при поиске причин деградации моделей [48:17].
*   **Pinot:** распределенное хранилище для OLAP-аналитики, разработанное в LinkedIn и переданное в open source [50:44]. Оно обеспечивает работу всей аналитики сайта в реальном времени, а теперь интегрировано и с инструментами дифференциальной приватности [51:34].

Йа Сюй убеждена: секрет успеха не только в алгоритмах, но и в архитектуре — как технической, так и организационной.