В эпоху стремительного развития искусственного интеллекта крупные технологические компании сталкиваются с уникальными вызовами архитектуры команд и этики данных. Йа Сюй (Ya Xu), возглавляющая отдел Data Science в LinkedIn, в интервью для подкаста TWIML AI делится опытом управления командой из 350 специалистов и объясняет, почему для успеха платформы одинаково важны и продвинутые алгоритмы дифференциальной приватности, и культура внутреннего чемпионства.
📈 Путь от теории графов к управлению данными в LinkedIn 1:10
Карьера Йа Сюй началась с глубокой академической подготовки: она получила докторскую степень (Ph.D.) по статистике в Стэнфорде . Несмотря на теоретическую направленность программы, Сюй всегда тяготела к прикладному аспекту, посвятив свою диссертацию полуавтоматическому обучению (semi-supervised learning) на графах .
Ее профессиональный путь в индустрии начался в Microsoft, после чего она перешла в LinkedIn, где работает уже около восьми лет . Первые годы Сюй занималась вопросами инфраструктуры и создания инструментов «горизонтального» уровня — платформ, которыми пользуются другие инженеры. Около четырех лет назад она совершила переход от индивидуального вклада в разработку к управлению, возглавив глобальную команду Data Science под руководством директора по данным (Chief Data Officer) компании .
Сегодня её команда — это централизованное подразделение, которое работает по принципу «внедрения» (embedded model) :
- Продуктовые группы: специалисты работают внутри команд поиска, ленты (feed), обмена сообщениями и поиска работы.
- Бизнес-вертикали: оптимизация маркетинговых бюджетов и работа с отделом продаж для прогнозирования оттока клиентов .
- Инфраструктура: оптимизация расписания заданий Hadoop для снижения пиковых нагрузок на память и хранилище .
🛠 Дилемма централизации: почему LinkedIn не распределяет специалистов 8:05
Вопрос о том, должна ли команда Data Science быть централизованной или распределенной по разным бизнес-юнитам, является ключевым для индустрии. По мнению Йа Сюй, для команд до пяти человек централизация обязательна для обеспечения карьерного роста и обмена опытом . Для гигантских организаций с тысячами специалистов логичнее создавать «центры передового опыта» (centers of excellence) внутри каждого юнита.
LinkedIn придерживается промежуточной модели. При штате в 300–350 человек команда остается единой организацией, что дает ряд преимуществ:
- Рычаг влияния (Leverage): возможность создавать единые инструменты, которые подходят всем, имея общую картину потребностей компании .
- Борьба с «изоляцией экспертов»: риск централизованной команды — решать красивые, но бесполезные для бизнеса задачи . Модель LinkedIn нивелирует это тем, что специалисты одной ногой стоят в доменной области (бизнесе), а другой — в профессиональном сообществе аналитиков данных .
🤝 Конфликты и синергия: как помирить «платформу» и «приложение» 12:40
Сюй выделяет две крайности в отношениях между командами инфраструктуры (платформы) и прикладными разработчиками: либо платформа слепо берет заказы, не думая об архитектуре, либо полностью игнорирует нужды пользователей, создавая инструменты в «вакууме» .
Для решения этой проблемы в LinkedIn используют «модель чемпионов» (champion model) :
- При запуске новой платформы не нужно пытаться заставить всех 10 потенциальных потребителей перейти на неё сразу.
- Необходимо найти 2–3 команды, которые уже выразили интерес, и сделать их «счастливыми», оперативно исправляя ошибки .
- Как только 4 из 10 команд покажут реальную выгоду от использования инструмента, остальные 6 «встанут в очередь» сами .
Также Сюй подчеркивает важность роли SME (Subject Matter Experts) — экспертов внутри прикладных команд, которые знают возможности платформы и выступают фильтром для запросов на новые функции, предотвращая хаотичное разрастание инфраструктуры .
🧪 Культура экспериментов: от интуиции к данным 26:38
Восемь лет назад в LinkedIn не было единой платформы для A/B тестирования. Йа Сюй вспоминает случай, когда запуск новой ML-модели показал 10% рост выручки в эксперименте, но финансовый отдел не увидел этого роста в реальных отчетах компании . Это привело к необходимости временного отката фичи, чтобы увидеть реальное падение показателей и доказать эффективность алгоритма.
Сегодня ситуация кардинально иная:
- Одновременно запущено около 500 экспериментов .
- Любое изменение продукта проходит через A/B тесты.
- Для каждого запуска отслеживается более 1000 метрик .
Это изменило саму культуру компании: вместо споров двух менеджеров, чья интуиция лучше, команда просто проводит тест . Сюй отмечает, что даже продуктовые цели теперь формулируются через метрики платформы экспериментов, что позволяет изолировать реальное влияние конкретной модели от внешних рыночных факторов .
🛡 Дифференциальная приватность: золотой стандарт будущего 35:42
Приватность данных Йа Сюй называет одним из главных факторов технологической деструкции (disruption) . Она подчеркивает, что простых методов анонимизации (удаление имен) недостаточно: исследования показывают, что 87% населения США можно однозначно идентифицировать, зная только их дату рождения, пол и почтовый индекс .
LinkedIn сделал ставку на дифференциальную приватность — метод, при котором результат анализа данных остается практически неизменным независимо от того, включена ли в выборку информация о конкретном индивиде .
Основные тезисы Сюй о приватности:
- Готовность технологии: Сюй утверждает, что дифференциальная приватность уже готова к массовому внедрению, приводя в пример Бюро переписи населения США (Census Bureau), которое использует этот метод .
- Эффективность против полезности: Главная сложность — выбор параметра «эпсилон» ($\epsilon$), который определяет баланс между уровнем шума (защитой) и полезностью данных для бизнеса .
- Применение в LinkedIn: Технология используется в отчетах для рекламодателей и при публикации внешней статистики о трендах на рынке труда, чтобы гарантировать невозможность обратного восстановления данных о пользователях .
🛠 Технологический стек LinkedIn: инструменты масштаба 45:51
В завершение интервью Йа Сюй перечислила ключевые платформы, которые обеспечивают работу Data Science в компании:
- ML Platform: гибкая среда, позволяющая быстро внедрять новые исследования и бесшовно переходить от офлайн-обучения к онлайн-обслуживанию .
- DataHub: открытая платформа для каталогизации метаданных. Она позволяет отслеживать происхождение данных (lineage), видеть, откуда пришел конкретный признак (feature) и как он менялся, что критично при поиске причин деградации моделей .
- Pinot: распределенное хранилище для OLAP-аналитики, разработанное в LinkedIn и переданное в open source . Оно обеспечивает работу всей аналитики сайта в реальном времени, а теперь интегрировано и с инструментами дифференциальной приватности .
Йа Сюй убеждена: секрет успеха не только в алгоритмах, но и в архитектуре — как технической, так и организационной.