Йа Сюй из LinkedIn о культуре данных: от 500 одновременных экспериментов до дифференциальной приватности

The TWIML AI Podcast 902 52 мин 5 мин 08.09.2022
Главное

В эпоху стремительного развития искусственного интеллекта крупные технологические компании сталкиваются с уникальными вызовами архитектуры команд и этики данных. Йа Сюй (Ya Xu), возглавляющая отдел Data Science в LinkedIn, в интервью для подкаста TWIML AI делится опытом управления командой из 350 специалистов и объясняет, почему для успеха платформы одинаково важны и продвинутые алгоритмы дифференциальной приватности, и культура внутреннего чемпионства.

📈 Путь от теории графов к управлению данными в LinkedIn 1:10

Карьера Йа Сюй началась с глубокой академической подготовки: она получила докторскую степень (Ph.D.) по статистике в Стэнфорде . Несмотря на теоретическую направленность программы, Сюй всегда тяготела к прикладному аспекту, посвятив свою диссертацию полуавтоматическому обучению (semi-supervised learning) на графах .

Ее профессиональный путь в индустрии начался в Microsoft, после чего она перешла в LinkedIn, где работает уже около восьми лет . Первые годы Сюй занималась вопросами инфраструктуры и создания инструментов «горизонтального» уровня — платформ, которыми пользуются другие инженеры. Около четырех лет назад она совершила переход от индивидуального вклада в разработку к управлению, возглавив глобальную команду Data Science под руководством директора по данным (Chief Data Officer) компании .

Сегодня её команда — это централизованное подразделение, которое работает по принципу «внедрения» (embedded model) :

🛠 Дилемма централизации: почему LinkedIn не распределяет специалистов 8:05

Вопрос о том, должна ли команда Data Science быть централизованной или распределенной по разным бизнес-юнитам, является ключевым для индустрии. По мнению Йа Сюй, для команд до пяти человек централизация обязательна для обеспечения карьерного роста и обмена опытом . Для гигантских организаций с тысячами специалистов логичнее создавать «центры передового опыта» (centers of excellence) внутри каждого юнита.

LinkedIn придерживается промежуточной модели. При штате в 300–350 человек команда остается единой организацией, что дает ряд преимуществ:

  1. Рычаг влияния (Leverage): возможность создавать единые инструменты, которые подходят всем, имея общую картину потребностей компании .
  2. Борьба с «изоляцией экспертов»: риск централизованной команды — решать красивые, но бесполезные для бизнеса задачи . Модель LinkedIn нивелирует это тем, что специалисты одной ногой стоят в доменной области (бизнесе), а другой — в профессиональном сообществе аналитиков данных .

🤝 Конфликты и синергия: как помирить «платформу» и «приложение» 12:40

Сюй выделяет две крайности в отношениях между командами инфраструктуры (платформы) и прикладными разработчиками: либо платформа слепо берет заказы, не думая об архитектуре, либо полностью игнорирует нужды пользователей, создавая инструменты в «вакууме» .

Для решения этой проблемы в LinkedIn используют «модель чемпионов» (champion model) :

Также Сюй подчеркивает важность роли SME (Subject Matter Experts) — экспертов внутри прикладных команд, которые знают возможности платформы и выступают фильтром для запросов на новые функции, предотвращая хаотичное разрастание инфраструктуры .

🧪 Культура экспериментов: от интуиции к данным 26:38

Восемь лет назад в LinkedIn не было единой платформы для A/B тестирования. Йа Сюй вспоминает случай, когда запуск новой ML-модели показал 10% рост выручки в эксперименте, но финансовый отдел не увидел этого роста в реальных отчетах компании . Это привело к необходимости временного отката фичи, чтобы увидеть реальное падение показателей и доказать эффективность алгоритма.

Сегодня ситуация кардинально иная:

Это изменило саму культуру компании: вместо споров двух менеджеров, чья интуиция лучше, команда просто проводит тест . Сюй отмечает, что даже продуктовые цели теперь формулируются через метрики платформы экспериментов, что позволяет изолировать реальное влияние конкретной модели от внешних рыночных факторов .

🛡 Дифференциальная приватность: золотой стандарт будущего 35:42

Приватность данных Йа Сюй называет одним из главных факторов технологической деструкции (disruption) . Она подчеркивает, что простых методов анонимизации (удаление имен) недостаточно: исследования показывают, что 87% населения США можно однозначно идентифицировать, зная только их дату рождения, пол и почтовый индекс .

LinkedIn сделал ставку на дифференциальную приватность — метод, при котором результат анализа данных остается практически неизменным независимо от того, включена ли в выборку информация о конкретном индивиде .

Основные тезисы Сюй о приватности:

  1. Готовность технологии: Сюй утверждает, что дифференциальная приватность уже готова к массовому внедрению, приводя в пример Бюро переписи населения США (Census Bureau), которое использует этот метод .
  2. Эффективность против полезности: Главная сложность — выбор параметра «эпсилон» ($\epsilon$), который определяет баланс между уровнем шума (защитой) и полезностью данных для бизнеса .
  3. Применение в LinkedIn: Технология используется в отчетах для рекламодателей и при публикации внешней статистики о трендах на рынке труда, чтобы гарантировать невозможность обратного восстановления данных о пользователях .

🛠 Технологический стек LinkedIn: инструменты масштаба 45:51

В завершение интервью Йа Сюй перечислила ключевые платформы, которые обеспечивают работу Data Science в компании:

Йа Сюй убеждена: секрет успеха не только в алгоритмах, но и в архитектуре — как технической, так и организационной.

💬 Цитаты

«Вместо споров двух менеджеров, чья интуиция лучше, сегодня разговор звучит просто: «Давайте это протестируем».»

«Дифференциальная приватность — это когда то, что вы узнаете из данных, не меняется от наличия или отсутствия в них одного конкретного человека.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Дифференциальная приватность
Математический подход к защите данных, добавляющий шум в результаты запросов так, чтобы нельзя было вычислить конкретного пользователя.
A/B тестирование
Метод сравнения двух версий продукта для определения того, какая из них эффективнее на основе данных пользователей.
Data Lineage
Процесс отслеживания жизненного цикла данных от момента их создания до использования в финальных отчетах или моделях.
OLAP
Технология оперативной аналитической обработки данных для быстрого выполнения сложных запросов.
📊 Цифры
🗓 Хронология
  1. 2013 Йа Сюй присоединяется к команде LinkedIn после работы в Microsoft.
  2. 2017 Переход Йа Сюй от роли индивидуального разработчика к управлению крупными командами (начало трансформации в Head of Data Science).
  3. 2021 Запись интервью, обсуждение зрелости платформ экспериментирования и приватности.
⚖️ Другая сторона
Технологии и IT Ya Xu LinkedIn Data Science Differential Privacy Apache Pinot