🚀 Трансформация рекомендаций: От кликов к долгосрочной ценности в Spotify 0:00
Spotify переходит от модели «кураторства» к системе, где рекомендации, основанные на глубоком машинном обучении, становятся фундаментом взаимодействия с пользователем. Тони Джебара, вице-президент по инжинирингу и руководитель направления машинного обучения в Spotify, утверждает, что компания стремится не просто максимизировать сиюминутные клики, а выстраивать долгосрочные отношения с пользователями. Этот подход, опирающийся на методы обучения с подкреплением (Reinforcement Learning, RL), позволяет предсказывать и формировать «пожизненную ценность» (Lifetime Value, LTV) подписчика.
🧠 Эволюция рекомендательных систем: от «одноруких бандитов» к RL 9:26
Методы машинного обучения в Spotify прошли путь от простых алгоритмов до сложных систем обучения с подкреплением.
- Начальный этап: Использование «многоруких бандитов» (multi-arm bandits), которые работают как «забывчивые» агенты. Они хороши для быстрых решений, но не учитывают контекст предыдущего опыта пользователя.
- Текущий этап: RL позволяет моделировать «путешествие» пользователя во времени, где каждое действие — это не изолированный клик, а шаг в долгосрочном развитии привычек.
По мнению Джебары, главная проблема традиционных рекомендаций в том, что они часто загоняют пользователей в «кроличью нору» предсказуемого контента, основанного только на прошлых прослушиваниях. RL помогает «поднять» пользователя на более высокий уровень, знакомя его с новыми категориями контента, что увеличивает совокупную ценность сервиса в будущем.
📊 Моделирование LTV: Деньги и «Фабрики монет» 21:07
Ключевым инструментом для оптимизации долгосрочных стратегий стали модели LTV (Lifetime Value).
- Связь LTV и RL: Джебара отмечает, что с математической точки зрения LTV в подписочных сервисах — это сумма дисконтированных будущих вознаграждений, что практически идентично значению функции ценности (Value Function, $V(s)$) в обучении с подкреплением.
- Вероятностные модели: Для оценки выживаемости (удержания) пользователей Spotify использует не просто простые бинарные вероятности (остался или ушел), а сложные «фабрики монет» (бета-распределения) и «фабрики игральных костей» (распределения Дирихле).
Эти модели описывают переход пользователей между множеством состояний: премиум-подписка, бесплатный план, семейный план, состояние оттока. По словам Джебары, использование «фабрик» лучше описывает поведение реальных людей, чем классические марковские модели, так как они учитывают индивидуальные особенности каждого пользователя.
🎯 Проблема атрибуции и «длинный путь» к привычке 16:17
Одной из главных сложностей является атрибуция: как понять, какой именно шаг привел к формированию долгосрочной привычки?
- Проблема: Мгновенный клик легко атрибутировать (рекомендация → действие), но формирование привычки — это цепочка из нескольких «подталкиваний» (nudges) и поисковых запросов пользователя.
- Решение: Spotify отслеживает «траектории» действий — последовательности состояний, которые привели к прослушиванию. Эти данные используются для обучения моделей офлайн (offline RL) и создания симуляторов.
🧪 От исследования к «гонке моделей» в продакшене 38:13
Процесс внедрения новых методов — это дисциплинированный цикл, который не ограничивается теорией:
- Прототипирование: Формирование гипотез на основе данных.
- Офлайн-тестирование: Проверка моделей на исторических данных.
- Симуляция: Запуск моделей в виртуальной среде.
- AB-тестирование («Конские бега»): Параллельный запуск старой и новой моделей на реальных пользователях.
Джебара подчеркивает, что новые модели часто показывают более низкий CTR (Click-Through Rate), чем старые, но при этом пользователи дольше остаются в сервисе и потребляют больше контента. Это подтверждает правильность перехода к оптимизации долгосрочной вовлеченности. По мнению эксперта, именно в этом заключается будущее индустрии: переход от «миопических» (близоруких) охотников за кликами к созданию алгоритмов, которые по-настоящему интеллектуальны в долгосрочной перспективе.