Гэри Рен из DoorDash: «ML предсказывает хаос, а математика находит из него выход»

The TWIML AI Podcast 867 43 мин 4 мин 10.09.2020
Главное

Логистика «последней мили» — это сложнейший механизм, где точность прогнозов напрямую влияет на прибыльность бизнеса и лояльность клиентов. В рамках подкаста The TWIML AI Podcast Сэм Чаррингтон беседует с Гэри Реном, инженером по машинному обучению в компании DoorDash, о том, как технологический стек компании справляется с хаосом реального мира, объединяя классические методы оптимизации и современные алгоритмы глубокого обучения.

🍔 Трехсторонний маркетплейс и роль ML 3:08

Бизнес-модель DoorDash строится на взаимодействии трех ключевых групп: потребителей, мерчантов (ресторанов и магазинов) и «дашеров» (курьеров) . У каждой стороны свои цели:

Машинное обучение пронизывает каждый аспект этого взаимодействия. Между потребителями и мерчантами ML решает задачи традиционной электронной коммерции: ранжирование поиска и рекомендации . В связке потребитель-дашер на первый план выходят задачи прогнозирования спроса и предложения, а также динамическое ценообразование. Взаимодействие дашеров и мерчантов требует сложных алгоритмов диспетчеризации для оптимального соответствия курьера конкретному заказу .

Одной из самых сложных задач Рен называет прогнозирование времени приготовления блюда . Несмотря на то что DoorDash запрашивает оценки у самих ресторанов, на кухне часто царит суета, и повара не могут дать точный прогноз. Система ML анализирует исторические данные, учитывая сложность блюд (будь то паста, пицца или просто мороженое), чтобы уточнить время готовности и не заставлять курьера ждать .

⚙️ Логистический движок: от прогноза к действию 6:54

Логистическая система DoorDash — это не монолит, а комплекс взаимосвязанных приложений, работающих в несколько этапов . Рен выделяет три ключевые стадии планирования:

  1. Балансировка рынка. Начинается за несколько дней до фактического заказа. Система прогнозирует, сколько будет заказов и сколько курьеров выйдет на линию. Если ожидается дефицит курьеров, DoorDash заранее создает стимулы (бонусы), чтобы дашеры могли спланировать свой график .
  2. Планирование маршрутов. В реальном времени просчитываются тысячи потенциальных путей между курьером, рестораном и клиентом .
  3. Оптимальное сопоставление (Assignment). Финальный этап, где система решает, какой именно дашер заберет конкретный заказ, минимизируя время доставки .

Рен подчеркивает, что балансировка спроса продолжается вплоть до реального времени. Если система видит внезапный перекос, она может отправить пуш-уведомление курьерам о том, что сейчас «жарко», или применить surge pricing (повышающие коэффициенты), чтобы снизить избыточный спрос .

🧪 Гибридный подход: ML плюс исследование операций (OR) 15:25

Одной из центральных тем обсуждения стало сочетание машинного обучения и традиционных методов исследования операций (Operations Research, OR) . По словам Гэри Рена, ML-модели отлично справляются с прогнозированием неизвестных величин (спроса, погоды, времени готовки), но они не предназначены для принятия решений в условиях жестких ограничений по стоимости и качеству.

Для поиска оптимальных стимулов (бонусов) для курьеров компания использует целочисленное программирование (Integer Programming).

Гэри Рен объясняет выбор такого подхода тем, что в DoorDash тысячи регионов и временных интервалов. Человеку-оператору невозможно решить, стоит ли добавить лишний доллар бонуса в Сан-Франциско или перенаправить его в Сан-Хосе. Математическая оптимизация позволяет автоматически находить идеальный баланс .

🤖 Эксперименты с обучением с подкреплением (Reinforcement Learning) 23:29

DoorDash активно исследует возможность использования обучения с подкреплением (RL), чтобы сделать системы еще более адаптивными. Проблема сопоставления курьеров и заказов идеально укладывается в парадигму RL:

Однако здесь инженеры сталкиваются с проблемой огромного пространства действий. Рен отмечает, что даже для 15 курьеров и 15 заказов существует более 1 триллиона возможных комбинаций . Чтобы обойти это ограничение, команда DoorDash использует хитрость: вместо того чтобы выбирать конкретные пары «курьер-заказ», RL-агент выбирает оптимальный вариант (вариацию) самого алгоритма назначения в текущих условиях . По результатам тестов, этот метод позволил сократить время доставки на несколько секунд, что в масштабах миллионов заказов дает колоссальный эффект .

🚧 Трудности внедрения и «эффект Игры престолов» 36:19

Работа в реальном мире сопряжена с высокой вариативностью. Гэри вспоминает, что во время выхода новых серий «Игры престолов» DoorDash фиксировал огромные всплески спроса каждое воскресенье — люди хотели успеть поесть до начала шоу . Подобные аномалии (праздники, Супербоул, пандемия) делают данные в продакшене крайне нестабильными.

Для поддержания надежности DoorDash инвестирует в инженерные системы мониторинга :

  1. Отслеживание расхождений (Training-Serving Skew) между данными обучения и реальными данными.
  2. Автоматическое переобучение моделей при деградации их точности.
  3. Использование эвристик для «подстраховки» ML-моделей в непредсказуемых ситуациях.

Когда началась пандемия COVID-19 или когда в США начали выплачивать стимулирующие чеки (stimulus checks), ни одна модель не могла предсказать последствия . В такие моменты компания переходит на гибридный режим: автоматизированные системы дополняются ручным управлением операторов, которые могут быстро корректировать параметры рынка, не дожидаясь накопления данных для переобучения моделей .

💬 Цитаты

«Даже с 15 доставками и 15 дашерами существует более одного триллиона возможных комбинаций сопоставления.»

«Машинное обучение в индустрии — это не только поиск правильных гиперпараметров, но и общие инженерные принципы.»

👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Дашеры (Dashers)
Курьеры, работающие на платформе DoorDash.
Исследование операций (Operations Research)
Дисциплина о применении математических методов для принятия оптимальных решений.
Целочисленное программирование
Метод оптимизации, где переменные должны принимать только целые значения.
Surge pricing
Динамическое повышение цен в периоды, когда спрос значительно превышает предложение.
📊 Цифры
🗓 Хронология
  1. 2 года назад Гэри Рен присоединился к команде DoorDash после работы в Microsoft Bing.
  2. 2020 Пандемия COVID-19 и введение режима самоизоляции вызвали беспрецедентный спрос на услуги DoorDash.
⚖️ Другая сторона
Технологии и IT DoorDash Machine Learning Operations Research Reinforcement Learning логистика