Шон Тейлор: «Модели должны возвращать решения, а не предсказания»

Практика причинно-следственных моделей в Lyft: взгляд Шона Тейлора 0:00

Масштабирование аналитических систем и внедрение причинно-следственного (каузального) моделирования в бизнес-процессы стали ключевыми темами интервью с Шоном Тейлором, специалистом по анализу данных (Staff Data Scientist) в Lyft. В беседе с ведущим The TWIML AI Podcast Сэмом Шаррингом эксперт поделился опытом работы в команде Rideshare Labs, рассказал об эволюции методов прогнозирования в условиях маркетплейса и объяснил, почему для бизнеса важно мыслить не категориями предсказаний, а категориями принятия решений.

🧪 Лаборатория инноваций в Lyft 2:21

Команда Rideshare Labs выполняет роль внутреннего инкубатора Lyft, позволяя ученым работать над «большими ставками» — идеями с потенциально высокой отдачей, даже если вероятность их успеха составляет менее 25–50%.

Основные принципы работы лаборатории:

Инкабация: создание пространства для экспериментов, которые нельзя сразу внедрить в жесткий график разработки основных продуктов.
Гибкость: использование инженерной команды для реализации прототипов и последующая передача успешных решений в продакшн-команды.
Смена ролей: Шон Тейлор подчеркнул важность возвращения к «hands-on» работе после управленческого периода. По его мнению, достижение состояния потока (концепция из книги «Flow» Михая Чиксентмихайи) критически важно для прогресса в сложных проектах.

📈 Прогнозирование как система принятия решений 10:40

По словам Тейлора, прогнозирование в Lyft — это не просто экстраполяция временных рядов, а человекоцентричная система, где учитываются ответные действия бизнеса.

Ключевые аспекты моделирования:

Управление балансом: спрос и предложение (пассажиры и водители) постоянно колеблются. Прогнозы помогают планировать стимулирующие выплаты и ценовые интервенции.
Причинно-следственный подход: при прогнозировании учитывается не только «естественный» ход событий, но и эффект от вмешательств (например, повышение цен снижает спрос).
Дифференцируемое программирование: использование PyTorch позволяет строить модели, которые не только предсказывают будущее, но и помогают найти оптимальный план действий под конкретные бизнес-цели.
Бизнес-знания: моделирование требует учета исторических данных о прошлых экспериментах и интервенциях, что, по мнению гостя, делает эту работу похожей на макроэкономику.

🧪 Экспериментирование в маркетплейсах 23:46

Одной из главных проблем Lyft является «шум» в данных, затрудняющий оценку эффективности алгоритмов.

Switchback-тесты: использование «временного разделения» (time split tests), при котором алгоритмы меняются в случайные интервалы. Это позволяет наблюдать реакцию системы на изменение состояния.
Проблема интерференции: при традиционном A/B-тестировании действия в одной группе (например, скидки) влияют на другую (дефицит водителей), поэтому необходимы более сложные методы дизайна экспериментов.
Масштабируемость: Шон Тейлор уверен, что компании должны проводить больше экспериментов, автоматизируя их настройку через конфигурационные системы, а не жестко закодированные условия.

🧠 Нейронные сети и гетерогенные эффекты 35:18

Хотя деревья решений (LightGBM, XGBoost) остаются надежным инструментом, команда Lyft активно исследует нейронные сети.

Преимущества нейросетей для Lyft:

Гибкость функций потерь: легко адаптировать под разные типы данных.
Многозадачность: возможность совместного обучения на разных исходах (отмена поездки, жалоба, успешное выполнение).
Гетерогенные эффекты (HTE): использование архитектур, подобных «Dragonnet» (разработка Клаудии Ши, Виктора Вейча и Дэвида Блая), позволяет понять, для каких сегментов пользователей конкретный стимул (например, купон) работает лучше всего.