Как устроена Data Science в LinkedIn: опыт Я Сюй

The TWIML AI Podcast 541 52 мин 8 мин 26.02.2021
Главное

В новом выпуске подкаста The TWIML AI Podcast руководитель направления Data Science в LinkedIn Я Сюй (Ya Xu) подробно рассказала об эволюции платформы машинного обучения компании. В центре дискуссии — уникальная организационная структура команды, методология масштабного A/B-тестирования, а также внедрение передовых технологий дифференциальной приватности для защиты пользовательских данных. Этот материал раскрывает внутренние инженерные механизмы, которые позволяют одной из крупнейших профессиональных соцсетей мира эффективно масштабировать процессы работы с искусственным интеллектом.

🛠️ От стартапа к зрелой платформе: карьерный путь Я Сюй 1:10

По словам Я Сюй, её путь в анализе данных начался в Стэндфордском университете, где она защитила докторскую диссертацию (PhD) по статистике. Несмотря на традиционно теоретическую направленность программы, Стэндфорд предлагал сильную прикладную базу, что позволило исследовательнице сфокусироваться на применении статистического моделирования для решения реальных задач.

Тема её диссертации была посвящена полуконтролируемому обучению на графах (semi-supervised learning on graphs) — направлению, которое в те годы ещё не пользовалось такой популярностью, как сегодня.

После окончания академического пути Я Сюй несколько лет проработала в Microsoft, а затем перешла в LinkedIn, где на момент интервью трудится уже около восьми лет.

В начале своей карьеры в компании она выступала в роли индивидуального контрибьютора (IC), фокусируясь исключительно на создании платформ и инструментов для других команд.

Примерно три-четыре года назад Я Сюй приняла решение перейти в менеджмент, получив поддержку со стороны директора по данным (Chief Data Officer) компании. Этот переход позволил ей взглянуть на инфраструктуру со стороны внутренних клиентов, сохраняя при этом тесную связь с командами разработки базовых платформ.

🏛️ Централизованно-внедрённая модель: как устроена Data Science в LinkedIn 5:05

Сегодня под руководством Я Сюй находится глобальная централизованная команда Data Science, насчитывающая от 300 до 350 специалистов.

По мнению гостьи, такая численность представляет собой промежуточный этап масштабирования: когда в компании работает около тысячи дата-сайентистов, целесообразно создавать локальные центры компетенций в каждом бизнес-юните, но для текущих масштабов LinkedIn централизованная структура остаётся наиболее эффективной.

Организация работы в LinkedIn строится по так называемой централизованно-внедрённой модели (centralized embedded model). Специалисты распределены по нескольким ключевым направлениям:

Как отмечает Я Сюй, главное преимущество централизации заключается в синергии и масштабируемости решений (leverage). Руководитель видит общую картину потребностей всей компании и может направлять ресурсы на создание инструментов, полезных для каждого сотрудника.

В то же время гостья указывает на потенциальную опасность классических «центров передового опыта» (centers of excellence): существует риск, что изолированная команда закроется в своём углу и начнёт создавать великолепные алгоритмы для решения совершенно неправильных задач.

Модель LinkedIn призвана устранить этот барьер: сотрудники находятся одной ногой в конкретном бизнес-домене, а другой — в материнской команде Data Science.

🤝 Синергия платформ и приложений: преодоление инженерного эго 12:22

Взаимодействие между платформенными командами, создающими infrastructure, и прикладными (application) командами часто сталкивается с трудностями. Я Сюй признаётся, что неоднократно наблюдала неэффективные рабочие модели в индустрии.

Обычно они скатываются в две крайности: либо прикладные инженеры просто «перебрасывают проблемы через забор» и диктуют платформе готовые решения без учёта долгосрочной архитектуры, либо разработчики платформы полностью игнорируют запросы клиентов, занимаясь лишь тем, что интересно им самим.

Для решения этой проблемы в LinkedIn внедрили подход взаимной ответственности (joint accountability) с самого первого дня работы над проектом. Платформа отвечает за поставку функционала, а прикладная команда обязана активно участвовать в его тестировании, чтобы на этапе минимально жизнеспособного продукта (MVP) инструмент гарантированно решал бизнес-задачи.

На этапе внедрения новых инструментов Я Сюй рекомендует использовать «модель чемпионов» (champion model):

  1. Вместо попыток принудительно перевести все 10 смежных команд на новую платформу, выбираются 2–3 команды, которые проявляют наибольший интерес.
  2. Разработчики платформы плотно работают с этими ранними последователями, оперативно устраняя баги и адаптируя систему под их нужды.
  3. Как только первые команды успешно внедряют решение и демонстрируют измеримую бизнес-ценность, остальные подразделения выстраиваются в очередь на миграцию сами.

На этапе зрелости платформы важную роль играет институт профильных экспертов (SME — Subject Matter Experts). В прикладной команде из 20 человек выделяется один сотрудник, досконально знающий возможности платформы.

Он становится локальным «чемпионом»: обучает коллег и выступает фильтром для запросов на новый функционал, переводя хаотичные пожелания инженеров на понятный архитекторам язык.

С технической точки зрения Я Сюй подчёркивает важность создания расширяемой (extensible) архитектуры. Платформа должна позволять внешним разработчикам дописывать собственные модули.

Например, команда Я Сюй разработала модуль объяснимости моделей (explainability) для внутренней ML-платформы LinkedIn, который затем стал доступен всей компании.

Аналогично устроена и система поиска аномалий: если стандартных алгоритмов недостаточно, прикладные инженеры могут легально интегрировать туда свои кастомные методы. По мнению гостьи, такой подход позволяет привлечь сотни сторонних инженеров к улучшению вашей платформы на добровольных началах.

В завершение темы гостья подчёркивает необходимость борьбы с «синдромом героя» и инженерным эгоизмом, когда сотрудники стремятся писать всё с нуля самостоятельно.

Я Сюй разделяет позицию одного из венчурных инвесторов, который при найме оценивает «соотношение IQ к эго» кандидата.

Она вспоминает, что восемь лет назад в LinkedIn существовали разрозненные команды данных в инженерии, продукте и финансовом департаменте, что порождало внутреннюю конкуренцию. Со временем и взрослением компании эти процессы удалось централизовать и упорядочить.

📊 Культура экспериментов: от интуиции героев к А/Б-тестированию 26:43

Я Сюй проиллюстрировала важность контролируемых рандомизированных экспериментов (A/B-тестирования) историей из личного опыта. Спустя пару месяцев после её прихода в LinkedIn, продуктовая команда протестировала новую модель машинного обучения.

В рамках изолированного теста метрики выглядели ошеломляюще позитивно, и модель была развёрнута на всю аудиторию.

Однако финансовый департамент компании, внимательно следивший за графиками доходов, заявил, что в реальных денежных потоках нет абсолютно никакого прироста.

Чтобы доказать ценность разработки, инженерам пришлось пойти на рискованный шаг: принудительно снизить долю новой модели и зафиксировать падение метрик в реальном времени, что окончательно убедило скептиков.

Сегодня масштабы экспериментов в LinkedIn выглядят следующим образом:

Экспериментальная платформа позволяет разграничить «намерение» (offline intent) разработчиков, оптимизирующих целевую функцию офлайн, и реальное «воздействие» (online impact) алгоритма на поведение живых пользователей.

По мнению Я Сюй, развитие этой инфраструктуры кардинально изменило корпоративную культуру LinkedIn: вместо бесконечных споров между продуктовыми менеджерами и столкновения их субъективных интуиций компания перешла к культуре непрерывного обучения, основанной на жёстких данных.

🔒 Дифференциальная приватность: баланс между пользой данных и защитой пользователей 35:45

Я Сюй считает ужесточение регуляторных требований к конфиденциальности данных (таких как GDPR в Европе, CCPA в Калифорнии и изменения в политике Apple IDFA) ключевым технологическим вызовом и одновременно возможностью для индустрии.

Внутри любой технологической компании неизбежно возникает фундаментальное противоречие: специалисты по Data Science стремятся извлечь из данных максимум скрытой информации, в то время как концепция приватности требует полностью заблокировать её распространение.

Традиционные методы деидентификации (анонимизации) данных, по словам гостьи, давно доказали свою неэффективность. Исследования прошлых лет показывают, что 87% населения США можно однозначно идентифицировать, зная всего три параметра: дату рождения, пол и почтовый индекс (ZIP-код).

Золотым стандартом индустрии для решения этой проблемы стала дифференциальная приватность (differential privacy). Суть концепции Я Сюй объясняет простым языком: математические выводы, которые алгоритм делает на основе массива данных, должны оставаться практически неизменными независимо от того, включена ли в этот массив информация об одном конкретном человеке или нет.

Если обучить алгоритм на полном наборе данных, а затем на том же наборе минус один пользователь, получившиеся кривые распределения должны быть максимально близки друг к другу с точностью до заданного коэффициента эпсилон ($\epsilon$).

В LinkedIn технологии дифференциальной приватности уже активно применяются в следующих сферах:

На вопрос ведущего о готовности дифференциальной приватности к массовому внедрению в обычных компаниях, Я Сюй даёт смелый утвердительный ответ.

Она приводит в пример Бюро переписи населения США (US Census Bureau), которое официально использует эту технологию в своей работе.

Кроме того, на рынке доступны зрелые open-source решения от гиганцев индустрии — в частности, библиотеки дифференциальной приватности от Microsoft и Google.

Тем не менее, гостья выделяет два серьёзных практических вызова:

  1. Выбор параметра эпсилон ($\epsilon$): руководство компании должно самостоятельно определить этот коэффициент, который напрямую регулирует компромисс (trade-off) между математической точностью аналитики и уровнем защиты приватности.
  2. Проблема потери информации (information loss): добавить шум (лапласовский или гауссовский) в данные технически просто, но если сделать это на раннем этапе конвейера обработки (в начале воронки запроса), полезные данные превратятся в «белый шум». Требуется высокая математическая экспертиза для создания алгоритмов, которые минимизируют потерю информации для специфических типов запросов, таких как классическая задача выделения топ-K элементов (top-k problem).

🧰 Экосистема внутренних инструментов: DataHub, Pinot и автоматизация 46:03

Масштабирование Data Science в LinkedIn было бы невозможно без развитой экосистемы специализированных внутренних платформ, созданием которых занимается смежная инженерная команда. Я Сюй перечислила ключевые компоненты этого технологического стека:

💬 Цитаты

«В любой момент времени у нас запущено около 500 экспериментов, и это касается каждого изменения.»

«Дифференциальная приватность означает, что выводы из данных должны быть одинаковыми с участием конкретного человека или без него.»

«Если вы превратите данные в белый шум добавлением случайных помех, то в их хранении больше не будет смысла.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
A/B-тестирование
Метод маркетингового и продуктового исследования, при котором контрольная группа пользователей сравнивается с тестовой для оценки эффективности изменений.
Дифференциальная приватность
Математический подход к защите конфиденциальности, гарантирующий, что добавление или удаление одной записи в базу данных не изменит существенно результаты аналитических запросов.
Data lineage (Происхождение данных)
Процесс отслеживания жизненного цикла данных, показывающий их источник, этапы трансформации и конечные точки использования.
OLAP (Online Analytical Processing)
Технология оперативной аналитической обработки данных, оптимизированная для быстрого выполнения сложных аналитических запросов к большим объёмам информации.
Коэффициент эпсилон (epsilon)
Параметр в дифференциальной приватности, определяющий жёсткость защиты: чем он меньше, тем выше конфиденциальность, но ниже точность данных.
📊 Цифры
🗓 Хронология
  1. 8 лет назад Я Сюй присоединяется к компании LinkedIn в роли индивидуального контрибьютора, фокусируясь на создании инфраструктурных платформ.
  2. 8 лет назад В LinkedIn зафиксирован инцидент с ложным ростом выручки от ML-модели, что подтолкнуло компанию к инвестициям в платформу A/B-тестирования.
  3. 3–4 года назад Я Сюй переходит на управленческую позицию и возглавляет централизованную команду Data Science.
⚖️ Другая сторона
Искусственный интеллект Я Сюй LinkedIn дифференциальная приватность A/B-тестирование Machine Learning