Тони Джебара о будущем: «Алгоритмы должны мыслить долгосрочно»

The TWIML AI Podcast 2,3 тыс. 45 мин 3 мин 29.12.2022
Главное

🚀 Трансформация рекомендаций: От кликов к долгосрочной ценности в Spotify 0:00

Spotify переходит от модели «кураторства» к системе, где рекомендации, основанные на глубоком машинном обучении, становятся фундаментом взаимодействия с пользователем. Тони Джебара, вице-президент по инжинирингу и руководитель направления машинного обучения в Spotify, утверждает, что компания стремится не просто максимизировать сиюминутные клики, а выстраивать долгосрочные отношения с пользователями. Этот подход, опирающийся на методы обучения с подкреплением (Reinforcement Learning, RL), позволяет предсказывать и формировать «пожизненную ценность» (Lifetime Value, LTV) подписчика.

🧠 Эволюция рекомендательных систем: от «одноруких бандитов» к RL 9:26

Методы машинного обучения в Spotify прошли путь от простых алгоритмов до сложных систем обучения с подкреплением.

По мнению Джебары, главная проблема традиционных рекомендаций в том, что они часто загоняют пользователей в «кроличью нору» предсказуемого контента, основанного только на прошлых прослушиваниях. RL помогает «поднять» пользователя на более высокий уровень, знакомя его с новыми категориями контента, что увеличивает совокупную ценность сервиса в будущем.

📊 Моделирование LTV: Деньги и «Фабрики монет» 21:07

Ключевым инструментом для оптимизации долгосрочных стратегий стали модели LTV (Lifetime Value).

Эти модели описывают переход пользователей между множеством состояний: премиум-подписка, бесплатный план, семейный план, состояние оттока. По словам Джебары, использование «фабрик» лучше описывает поведение реальных людей, чем классические марковские модели, так как они учитывают индивидуальные особенности каждого пользователя.

🎯 Проблема атрибуции и «длинный путь» к привычке 16:17

Одной из главных сложностей является атрибуция: как понять, какой именно шаг привел к формированию долгосрочной привычки?

🧪 От исследования к «гонке моделей» в продакшене 38:13

Процесс внедрения новых методов — это дисциплинированный цикл, который не ограничивается теорией:

  1. Прототипирование: Формирование гипотез на основе данных.
  2. Офлайн-тестирование: Проверка моделей на исторических данных.
  3. Симуляция: Запуск моделей в виртуальной среде.
  4. AB-тестирование («Конские бега»): Параллельный запуск старой и новой моделей на реальных пользователях.

Джебара подчеркивает, что новые модели часто показывают более низкий CTR (Click-Through Rate), чем старые, но при этом пользователи дольше остаются в сервисе и потребляют больше контента. Это подтверждает правильность перехода к оптимизации долгосрочной вовлеченности. По мнению эксперта, именно в этом заключается будущее индустрии: переход от «миопических» (близоруких) охотников за кликами к созданию алгоритмов, которые по-настоящему интеллектуальны в долгосрочной перспективе.

💬 Цитаты

«Мы переходим от курирования к продукту, основанному на рекомендациях, который объясняет пользователю, почему эта рекомендация имеет для него смысл.»

Тони Джебара 5:54

«Мы стараемся не просто получать клики, а получать клики на что-то, что станет привычкой.»

Тони Джебара 36:41
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement Learning (RL)
Метод обучения ИИ, при котором агент учится принимать последовательность решений, максимизируя суммарную награду.
LTV (Lifetime Value)
Пожизненная ценность клиента — совокупная прибыль, которую компания получает от пользователя за все время сотрудничества.
Офлайн RL (Offline RL)
Метод обучения с подкреплением, который использует статические наборы данных без прямого взаимодействия с активной средой.
AB-тестирование
Метод сравнения двух версий модели или продукта, где одна группа пользователей получает один вариант, а другая — другой.
Функция ценности (Value Function)
Математическая оценка того, какой суммарный выигрыш может получить агент, находясь в конкретном состоянии.
📊 Цифры
🗓 Хронология
  1. 2017 Первая встреча Сэма Чарингтона и Тони Джебары на конференции в Сан-Франциско.
  2. 2021 Публикация научной работы Spotify по выживаемости пользователей.
  3. 2026 (лето) Публикация работы по многостадийному выживанию и RL.
⚖️ Другая сторона
Искусственный интеллект Tony Jebara Spotify Reinforcement Learning Lifetime Value Machine Learning