# Тони Джебара о будущем: «Алгоритмы должны мыслить долгосрочно»

Источник: https://www.youtube.com/watch?v=mk3bxceyipc
Канал: The TWIML AI Podcast
Опубликовано: 29.12.2022

---

## 🚀 Трансформация рекомендаций: От кликов к долгосрочной ценности в Spotify
[[JUMP:0:00]]

Spotify переходит от модели «кураторства» к системе, где рекомендации, основанные на глубоком машинном обучении, становятся фундаментом взаимодействия с пользователем. Тони Джебара, вице-президент по инжинирингу и руководитель направления машинного обучения в Spotify, утверждает, что компания стремится не просто максимизировать сиюминутные клики, а выстраивать долгосрочные отношения с пользователями. Этот подход, опирающийся на методы обучения с подкреплением (Reinforcement Learning, RL), позволяет предсказывать и формировать «пожизненную ценность» (Lifetime Value, LTV) подписчика.

## 🧠 Эволюция рекомендательных систем: от «одноруких бандитов» к RL
[[JUMP:9:26]]

Методы машинного обучения в Spotify прошли путь от простых алгоритмов до сложных систем обучения с подкреплением.

* **Начальный этап:** Использование «многоруких бандитов» (multi-arm bandits), которые работают как «забывчивые» агенты. Они хороши для быстрых решений, но не учитывают контекст предыдущего опыта пользователя.
* **Текущий этап:** RL позволяет моделировать «путешествие» пользователя во времени, где каждое действие — это не изолированный клик, а шаг в долгосрочном развитии привычек.

По мнению Джебары, главная проблема традиционных рекомендаций в том, что они часто загоняют пользователей в «кроличью нору» предсказуемого контента, основанного только на прошлых прослушиваниях. RL помогает «поднять» пользователя на более высокий уровень, знакомя его с новыми категориями контента, что увеличивает совокупную ценность сервиса в будущем.

## 📊 Моделирование LTV: Деньги и «Фабрики монет»
[[JUMP:21:07]]

Ключевым инструментом для оптимизации долгосрочных стратегий стали модели LTV (Lifetime Value). 

* **Связь LTV и RL:** Джебара отмечает, что с математической точки зрения LTV в подписочных сервисах — это сумма дисконтированных будущих вознаграждений, что практически идентично значению функции ценности (Value Function, $V(s)$) в обучении с подкреплением.
* **Вероятностные модели:** Для оценки выживаемости (удержания) пользователей Spotify использует не просто простые бинарные вероятности (остался или ушел), а сложные «фабрики монет» (бета-распределения) и «фабрики игральных костей» (распределения Дирихле). 

Эти модели описывают переход пользователей между множеством состояний: премиум-подписка, бесплатный план, семейный план, состояние оттока. По словам Джебары, использование «фабрик» лучше описывает поведение реальных людей, чем классические марковские модели, так как они учитывают индивидуальные особенности каждого пользователя.

## 🎯 Проблема атрибуции и «длинный путь» к привычке
[[JUMP:16:17]]

Одной из главных сложностей является атрибуция: как понять, какой именно шаг привел к формированию долгосрочной привычки? 

* **Проблема:** Мгновенный клик легко атрибутировать (рекомендация → действие), но формирование привычки — это цепочка из нескольких «подталкиваний» (nudges) и поисковых запросов пользователя.
* **Решение:** Spotify отслеживает «траектории» действий — последовательности состояний, которые привели к прослушиванию. Эти данные используются для обучения моделей офлайн (offline RL) и создания симуляторов.

## 🧪 От исследования к «гонке моделей» в продакшене
[[JUMP:38:13]]

Процесс внедрения новых методов — это дисциплинированный цикл, который не ограничивается теорией:

1.  **Прототипирование:** Формирование гипотез на основе данных.
2.  **Офлайн-тестирование:** Проверка моделей на исторических данных.
3.  **Симуляция:** Запуск моделей в виртуальной среде.
4.  **AB-тестирование («Конские бега»):** Параллельный запуск старой и новой моделей на реальных пользователях.

Джебара подчеркивает, что новые модели часто показывают *более низкий* CTR (Click-Through Rate), чем старые, но при этом пользователи дольше остаются в сервисе и потребляют больше контента. Это подтверждает правильность перехода к оптимизации долгосрочной вовлеченности. По мнению эксперта, именно в этом заключается будущее индустрии: переход от «миопических» (близоруких) охотников за кликами к созданию алгоритмов, которые по-настоящему интеллектуальны в долгосрочной перспективе.