Тони Джебара о будущем: «Алгоритмы должны мыслить долгосрочно»

🚀 Трансформация рекомендаций: От кликов к долгосрочной ценности в Spotify 0:00

Spotify переходит от модели «кураторства» к системе, где рекомендации, основанные на глубоком машинном обучении, становятся фундаментом взаимодействия с пользователем. Тони Джебара, вице-президент по инжинирингу и руководитель направления машинного обучения в Spotify, утверждает, что компания стремится не просто максимизировать сиюминутные клики, а выстраивать долгосрочные отношения с пользователями. Этот подход, опирающийся на методы обучения с подкреплением (Reinforcement Learning, RL), позволяет предсказывать и формировать «пожизненную ценность» (Lifetime Value, LTV) подписчика.

🧠 Эволюция рекомендательных систем: от «одноруких бандитов» к RL 9:26

Методы машинного обучения в Spotify прошли путь от простых алгоритмов до сложных систем обучения с подкреплением.

Начальный этап: Использование «многоруких бандитов» (multi-arm bandits), которые работают как «забывчивые» агенты. Они хороши для быстрых решений, но не учитывают контекст предыдущего опыта пользователя.
Текущий этап: RL позволяет моделировать «путешествие» пользователя во времени, где каждое действие — это не изолированный клик, а шаг в долгосрочном развитии привычек.

По мнению Джебары, главная проблема традиционных рекомендаций в том, что они часто загоняют пользователей в «кроличью нору» предсказуемого контента, основанного только на прошлых прослушиваниях. RL помогает «поднять» пользователя на более высокий уровень, знакомя его с новыми категориями контента, что увеличивает совокупную ценность сервиса в будущем.

📊 Моделирование LTV: Деньги и «Фабрики монет» 21:07

Ключевым инструментом для оптимизации долгосрочных стратегий стали модели LTV (Lifetime Value).

Связь LTV и RL: Джебара отмечает, что с математической точки зрения LTV в подписочных сервисах — это сумма дисконтированных будущих вознаграждений, что практически идентично значению функции ценности (Value Function, $V(s)$) в обучении с подкреплением.
Вероятностные модели: Для оценки выживаемости (удержания) пользователей Spotify использует не просто простые бинарные вероятности (остался или ушел), а сложные «фабрики монет» (бета-распределения) и «фабрики игральных костей» (распределения Дирихле).

Эти модели описывают переход пользователей между множеством состояний: премиум-подписка, бесплатный план, семейный план, состояние оттока. По словам Джебары, использование «фабрик» лучше описывает поведение реальных людей, чем классические марковские модели, так как они учитывают индивидуальные особенности каждого пользователя.

🎯 Проблема атрибуции и «длинный путь» к привычке 16:17

Одной из главных сложностей является атрибуция: как понять, какой именно шаг привел к формированию долгосрочной привычки?

Проблема: Мгновенный клик легко атрибутировать (рекомендация → действие), но формирование привычки — это цепочка из нескольких «подталкиваний» (nudges) и поисковых запросов пользователя.
Решение: Spotify отслеживает «траектории» действий — последовательности состояний, которые привели к прослушиванию. Эти данные используются для обучения моделей офлайн (offline RL) и создания симуляторов.

🧪 От исследования к «гонке моделей» в продакшене 38:13

Процесс внедрения новых методов — это дисциплинированный цикл, который не ограничивается теорией:

Прототипирование: Формирование гипотез на основе данных.
Офлайн-тестирование: Проверка моделей на исторических данных.
Симуляция: Запуск моделей в виртуальной среде.
AB-тестирование («Конские бега»): Параллельный запуск старой и новой моделей на реальных пользователях.

Джебара подчеркивает, что новые модели часто показывают более низкий CTR (Click-Through Rate), чем старые, но при этом пользователи дольше остаются в сервисе и потребляют больше контента. Это подтверждает правильность перехода к оптимизации долгосрочной вовлеченности. По мнению эксперта, именно в этом заключается будущее индустрии: переход от «миопических» (близоруких) охотников за кликами к созданию алгоритмов, которые по-настоящему интеллектуальны в долгосрочной перспективе.