Как устроена Data Science в LinkedIn: опыт Я Сюй

В новом выпуске подкаста The TWIML AI Podcast руководитель направления Data Science в LinkedIn Я Сюй (Ya Xu) подробно рассказала об эволюции платформы машинного обучения компании. В центре дискуссии — уникальная организационная структура команды, методология масштабного A/B-тестирования, а также внедрение передовых технологий дифференциальной приватности для защиты пользовательских данных. Этот материал раскрывает внутренние инженерные механизмы, которые позволяют одной из крупнейших профессиональных соцсетей мира эффективно масштабировать процессы работы с искусственным интеллектом.

🛠️ От стартапа к зрелой платформе: карьерный путь Я Сюй 1:10

По словам Я Сюй, её путь в анализе данных начался в Стэндфордском университете, где она защитила докторскую диссертацию (PhD) по статистике. Несмотря на традиционно теоретическую направленность программы, Стэндфорд предлагал сильную прикладную базу, что позволило исследовательнице сфокусироваться на применении статистического моделирования для решения реальных задач.

Тема её диссертации была посвящена полуконтролируемому обучению на графах (semi-supervised learning on graphs) — направлению, которое в те годы ещё не пользовалось такой популярностью, как сегодня.

После окончания академического пути Я Сюй несколько лет проработала в Microsoft, а затем перешла в LinkedIn, где на момент интервью трудится уже около восьми лет.

В начале своей карьеры в компании она выступала в роли индивидуального контрибьютора (IC), фокусируясь исключительно на создании платформ и инструментов для других команд.

Примерно три-четыре года назад Я Сюй приняла решение перейти в менеджмент, получив поддержку со стороны директора по данным (Chief Data Officer) компании. Этот переход позволил ей взглянуть на инфраструктуру со стороны внутренних клиентов, сохраняя при этом тесную связь с командами разработки базовых платформ.

🏛️ Централизованно-внедрённая модель: как устроена Data Science в LinkedIn 5:05

Сегодня под руководством Я Сюй находится глобальная централизованная команда Data Science, насчитывающая от 300 до 350 специалистов.

По мнению гостьи, такая численность представляет собой промежуточный этап масштабирования: когда в компании работает около тысячи дата-сайентистов, целесообразно создавать локальные центры компетенций в каждом бизнес-юните, но для текущих масштабов LinkedIn централизованная структура остаётся наиболее эффективной.

Организация работы в LinkedIn строится по так называемой централизованно-внедрённой модели (centralized embedded model). Специалисты распределены по нескольким ключевым направлениям:

Продуктовые команды: дата-сайентисты глубоко интегрированы в разработку конкретных сервисов, таких как новостная лента (feed), обмен сообщениями, поиск, а также разделы вакансий и карьеры.
Выход на рынок (Go-To-Market): аналитики работают совместно с командами маркетинга и продаж, оптимизируя рекламные бюджеты и предсказывая вероятность оттока клиентов (churn rate).
Инфраструктурные задачи: специалисты оптимизируют внутренние процессы, например, составляют расписание офлайн-задач в Hadoop для минимизации пиковых нагрузок и эффективного распределения памяти и дискового пространства.
Горизонтальные компетенции: отдельные группы фокусируются на развитии общей методологии экспериментов, алгоритмах обнаружения аномалий, прогнозировании и технологиях обеспечения приватности.

Как отмечает Я Сюй, главное преимущество централизации заключается в синергии и масштабируемости решений (leverage). Руководитель видит общую картину потребностей всей компании и может направлять ресурсы на создание инструментов, полезных для каждого сотрудника.

В то же время гостья указывает на потенциальную опасность классических «центров передового опыта» (centers of excellence): существует риск, что изолированная команда закроется в своём углу и начнёт создавать великолепные алгоритмы для решения совершенно неправильных задач.

Модель LinkedIn призвана устранить этот барьер: сотрудники находятся одной ногой в конкретном бизнес-домене, а другой — в материнской команде Data Science.

🤝 Синергия платформ и приложений: преодоление инженерного эго 12:22

Взаимодействие между платформенными командами, создающими infrastructure, и прикладными (application) командами часто сталкивается с трудностями. Я Сюй признаётся, что неоднократно наблюдала неэффективные рабочие модели в индустрии.

Обычно они скатываются в две крайности: либо прикладные инженеры просто «перебрасывают проблемы через забор» и диктуют платформе готовые решения без учёта долгосрочной архитектуры, либо разработчики платформы полностью игнорируют запросы клиентов, занимаясь лишь тем, что интересно им самим.

Для решения этой проблемы в LinkedIn внедрили подход взаимной ответственности (joint accountability) с самого первого дня работы над проектом. Платформа отвечает за поставку функционала, а прикладная команда обязана активно участвовать в его тестировании, чтобы на этапе минимально жизнеспособного продукта (MVP) инструмент гарантированно решал бизнес-задачи.

На этапе внедрения новых инструментов Я Сюй рекомендует использовать «модель чемпионов» (champion model):

Вместо попыток принудительно перевести все 10 смежных команд на новую платформу, выбираются 2–3 команды, которые проявляют наибольший интерес.
Разработчики платформы плотно работают с этими ранними последователями, оперативно устраняя баги и адаптируя систему под их нужды.
Как только первые команды успешно внедряют решение и демонстрируют измеримую бизнес-ценность, остальные подразделения выстраиваются в очередь на миграцию сами.

На этапе зрелости платформы важную роль играет институт профильных экспертов (SME — Subject Matter Experts). В прикладной команде из 20 человек выделяется один сотрудник, досконально знающий возможности платформы.

Он становится локальным «чемпионом»: обучает коллег и выступает фильтром для запросов на новый функционал, переводя хаотичные пожелания инженеров на понятный архитекторам язык.

С технической точки зрения Я Сюй подчёркивает важность создания расширяемой (extensible) архитектуры. Платформа должна позволять внешним разработчикам дописывать собственные модули.

Например, команда Я Сюй разработала модуль объяснимости моделей (explainability) для внутренней ML-платформы LinkedIn, который затем стал доступен всей компании.

Аналогично устроена и система поиска аномалий: если стандартных алгоритмов недостаточно, прикладные инженеры могут легально интегрировать туда свои кастомные методы. По мнению гостьи, такой подход позволяет привлечь сотни сторонних инженеров к улучшению вашей платформы на добровольных началах.

В завершение темы гостья подчёркивает необходимость борьбы с «синдромом героя» и инженерным эгоизмом, когда сотрудники стремятся писать всё с нуля самостоятельно.

Я Сюй разделяет позицию одного из венчурных инвесторов, который при найме оценивает «соотношение IQ к эго» кандидата.

Она вспоминает, что восемь лет назад в LinkedIn существовали разрозненные команды данных в инженерии, продукте и финансовом департаменте, что порождало внутреннюю конкуренцию. Со временем и взрослением компании эти процессы удалось централизовать и упорядочить.

📊 Культура экспериментов: от интуиции героев к А/Б-тестированию 26:43

Я Сюй проиллюстрировала важность контролируемых рандомизированных экспериментов (A/B-тестирования) историей из личного опыта. Спустя пару месяцев после её прихода в LinkedIn, продуктовая команда протестировала новую модель машинного обучения.

В рамках изолированного теста метрики выглядели ошеломляюще позитивно, и модель была развёрнута на всю аудиторию.

Однако финансовый департамент компании, внимательно следивший за графиками доходов, заявил, что в реальных денежных потоках нет абсолютно никакого прироста.

Чтобы доказать ценность разработки, инженерам пришлось пойти на рискованный шаг: принудительно снизить долю новой модели и зафиксировать падение метрик в реальном времени, что окончательно убедило скептиков.

Сегодня масштабы экспериментов в LinkedIn выглядят следующим образом:

В любой произвольный момент времени в компании одновременно запущено около 500 контролируемых экспериментов.
Через A/B-тестирование проходят не только изменения в ML-алгоритмах, но и абсолютно каждый продуктовый релиз или обновление интерфейса.
Для каждого запуска система автоматически отслеживает более 1000 метрик, чтобы исключить негативные побочные эффекты.

Экспериментальная платформа позволяет разграничить «намерение» (offline intent) разработчиков, оптимизирующих целевую функцию офлайн, и реальное «воздействие» (online impact) алгоритма на поведение живых пользователей.

По мнению Я Сюй, развитие этой инфраструктуры кардинально изменило корпоративную культуру LinkedIn: вместо бесконечных споров между продуктовыми менеджерами и столкновения их субъективных интуиций компания перешла к культуре непрерывного обучения, основанной на жёстких данных.

🔒 Дифференциальная приватность: баланс между пользой данных и защитой пользователей 35:45

Я Сюй считает ужесточение регуляторных требований к конфиденциальности данных (таких как GDPR в Европе, CCPA в Калифорнии и изменения в политике Apple IDFA) ключевым технологическим вызовом и одновременно возможностью для индустрии.

Внутри любой технологической компании неизбежно возникает фундаментальное противоречие: специалисты по Data Science стремятся извлечь из данных максимум скрытой информации, в то время как концепция приватности требует полностью заблокировать её распространение.

Традиционные методы деидентификации (анонимизации) данных, по словам гостьи, давно доказали свою неэффективность. Исследования прошлых лет показывают, что 87% населения США можно однозначно идентифицировать, зная всего три параметра: дату рождения, пол и почтовый индекс (ZIP-код).

Золотым стандартом индустрии для решения этой проблемы стала дифференциальная приватность (differential privacy). Суть концепции Я Сюй объясняет простым языком: математические выводы, которые алгоритм делает на основе массива данных, должны оставаться практически неизменными независимо от того, включена ли в этот массив информация об одном конкретном человеке или нет.

Если обучить алгоритм на полном наборе данных, а затем на том же наборе минус один пользователь, получившиеся кривые распределения должны быть максимально близки друг к другу с точностью до заданного коэффициента эпсилон ($\epsilon$).

В LinkedIn технологии дифференциальной приватности уже активно применяются в следующих сферах:

Отчётность для рекламодателей: аналитические отчёты, предоставляемые клиентам рекламной платформы, проходят обязательную процедуру зашумления.
Публичные исследования: при публикации агрегированных данных об экономическом графе (например, о самых востребованных навыках или компаниях с высокими темпами найма) информация защищается алгоритмически, что исключает возможность обратной инженерии личных данных.

На вопрос ведущего о готовности дифференциальной приватности к массовому внедрению в обычных компаниях, Я Сюй даёт смелый утвердительный ответ.

Она приводит в пример Бюро переписи населения США (US Census Bureau), которое официально использует эту технологию в своей работе.

Кроме того, на рынке доступны зрелые open-source решения от гиганцев индустрии — в частности, библиотеки дифференциальной приватности от Microsoft и Google.

Тем не менее, гостья выделяет два серьёзных практических вызова:

Выбор параметра эпсилон ($\epsilon$): руководство компании должно самостоятельно определить этот коэффициент, который напрямую регулирует компромисс (trade-off) между математической точностью аналитики и уровнем защиты приватности.
Проблема потери информации (information loss): добавить шум (лапласовский или гауссовский) в данные технически просто, но если сделать это на раннем этапе конвейера обработки (в начале воронки запроса), полезные данные превратятся в «белый шум». Требуется высокая математическая экспертиза для создания алгоритмов, которые минимизируют потерю информации для специфических типов запросов, таких как классическая задача выделения топ-K элементов (top-k problem).

🧰 Экосистема внутренних инструментов: DataHub, Pinot и автоматизация 46:03

Масштабирование Data Science в LinkedIn было бы невозможно без развитой экосистемы специализированных внутренних платформ, созданием которых занимается смежная инженерная команда. Я Сюй перечислила ключевые компоненты этого технологического стека:

Платформа экспериментов и ML-инфраструктура: обеспечивают бесшовный перевод моделей из офлайн-песочниц в продакшен и их непрерывную эволюцию вслед за академическими исследованиями.
Каталог метаданных (DataHub): централизованная система для поиска и инвентаризации цифровых активов (метрик, моделей, признаков и наборов данных). Она позволяет отслеживать происхождение данных (data lineage), что критически важно, когда цепочка обработки состоит из множества шагов и изменения на пятом шаге могут испортить финальную модель.
Система мониторинга и корневого анализа (Root Cause Analysis): автоматизированный инструмент для детекции аномалий и сдвигов в распределении признаков (distribution shift). Например, баг в телеметрии интерфейса может исказить логирование, что автоматически сломает работающую ML-модель. Платформа позволяет мгновенно локализовать первопричину сбоя.
Apache Pinot: распределённая OLAP-система хранения и обработки данных в реальном времени, разработанная внутри LinkedIn и впоследствии переданная в open source. Технология обеспечивает мгновенное построение аналитики на страницах пользователей и внутри компании. Примечательно, что внутренняя система дифференциальной приватности (Metro) была развёрнута непосредственно поверх Apache Pinot, что позволило автоматически защитить все накопленные в ней сценарии использования.