Гэри Рен из DoorDash: «ML предсказывает хаос, а математика находит из него выход»

Логистика «последней мили» — это сложнейший механизм, где точность прогнозов напрямую влияет на прибыльность бизнеса и лояльность клиентов. В рамках подкаста The TWIML AI Podcast Сэм Чаррингтон беседует с Гэри Реном, инженером по машинному обучению в компании DoorDash, о том, как технологический стек компании справляется с хаосом реального мира, объединяя классические методы оптимизации и современные алгоритмы глубокого обучения.

🍔 Трехсторонний маркетплейс и роль ML 3:08

Бизнес-модель DoorDash строится на взаимодействии трех ключевых групп: потребителей, мерчантов (ресторанов и магазинов) и «дашеров» (курьеров) . У каждой стороны свои цели:

Потребители ценят удобство и доступ к любимым заведениям, не выходя из дома.
Мерчанты стремятся увеличить охват и выручку за счет доставки.
Дашеры ищут гибкие возможности для заработка .

Машинное обучение пронизывает каждый аспект этого взаимодействия. Между потребителями и мерчантами ML решает задачи традиционной электронной коммерции: ранжирование поиска и рекомендации . В связке потребитель-дашер на первый план выходят задачи прогнозирования спроса и предложения, а также динамическое ценообразование. Взаимодействие дашеров и мерчантов требует сложных алгоритмов диспетчеризации для оптимального соответствия курьера конкретному заказу .

Одной из самых сложных задач Рен называет прогнозирование времени приготовления блюда . Несмотря на то что DoorDash запрашивает оценки у самих ресторанов, на кухне часто царит суета, и повара не могут дать точный прогноз. Система ML анализирует исторические данные, учитывая сложность блюд (будь то паста, пицца или просто мороженое), чтобы уточнить время готовности и не заставлять курьера ждать .

⚙️ Логистический движок: от прогноза к действию 6:54

Логистическая система DoorDash — это не монолит, а комплекс взаимосвязанных приложений, работающих в несколько этапов . Рен выделяет три ключевые стадии планирования:

Балансировка рынка. Начинается за несколько дней до фактического заказа. Система прогнозирует, сколько будет заказов и сколько курьеров выйдет на линию. Если ожидается дефицит курьеров, DoorDash заранее создает стимулы (бонусы), чтобы дашеры могли спланировать свой график .
Планирование маршрутов. В реальном времени просчитываются тысячи потенциальных путей между курьером, рестораном и клиентом .
Оптимальное сопоставление (Assignment). Финальный этап, где система решает, какой именно дашер заберет конкретный заказ, минимизируя время доставки .

Рен подчеркивает, что балансировка спроса продолжается вплоть до реального времени. Если система видит внезапный перекос, она может отправить пуш-уведомление курьерам о том, что сейчас «жарко», или применить surge pricing (повышающие коэффициенты), чтобы снизить избыточный спрос .

🧪 Гибридный подход: ML плюс исследование операций (OR) 15:25

Одной из центральных тем обсуждения стало сочетание машинного обучения и традиционных методов исследования операций (Operations Research, OR) . По словам Гэри Рена, ML-модели отлично справляются с прогнозированием неизвестных величин (спроса, погоды, времени готовки), но они не предназначены для принятия решений в условиях жестких ограничений по стоимости и качеству.

Для поиска оптимальных стимулов (бонусов) для курьеров компания использует целочисленное программирование (Integer Programming).

ML-модели поставляют входные данные: вероятный спрос и предложение.
OR-система берет эти данные и решает математическую задачу оптимизации, где целью является максимизация качества доставки, а ограничением — бюджет на выплаты .

Гэри Рен объясняет выбор такого подхода тем, что в DoorDash тысячи регионов и временных интервалов. Человеку-оператору невозможно решить, стоит ли добавить лишний доллар бонуса в Сан-Франциско или перенаправить его в Сан-Хосе. Математическая оптимизация позволяет автоматически находить идеальный баланс .

🤖 Эксперименты с обучением с подкреплением (Reinforcement Learning) 23:29

DoorDash активно исследует возможность использования обучения с подкреплением (RL), чтобы сделать системы еще более адаптивными. Проблема сопоставления курьеров и заказов идеально укладывается в парадигму RL:

Состояние (State): Текущее распределение заказов и курьеров.
Действие (Action): Вариант назначения курьеров на заказы.
Награда (Reward): Метрики скорости доставки и эффективности маркетплейса .

Однако здесь инженеры сталкиваются с проблемой огромного пространства действий. Рен отмечает, что даже для 15 курьеров и 15 заказов существует более 1 триллиона возможных комбинаций . Чтобы обойти это ограничение, команда DoorDash использует хитрость: вместо того чтобы выбирать конкретные пары «курьер-заказ», RL-агент выбирает оптимальный вариант (вариацию) самого алгоритма назначения в текущих условиях . По результатам тестов, этот метод позволил сократить время доставки на несколько секунд, что в масштабах миллионов заказов дает колоссальный эффект .

🚧 Трудности внедрения и «эффект Игры престолов» 36:19

Работа в реальном мире сопряжена с высокой вариативностью. Гэри вспоминает, что во время выхода новых серий «Игры престолов» DoorDash фиксировал огромные всплески спроса каждое воскресенье — люди хотели успеть поесть до начала шоу . Подобные аномалии (праздники, Супербоул, пандемия) делают данные в продакшене крайне нестабильными.

Для поддержания надежности DoorDash инвестирует в инженерные системы мониторинга :

Отслеживание расхождений (Training-Serving Skew) между данными обучения и реальными данными.
Автоматическое переобучение моделей при деградации их точности.
Использование эвристик для «подстраховки» ML-моделей в непредсказуемых ситуациях.

Когда началась пандемия COVID-19 или когда в США начали выплачивать стимулирующие чеки (stimulus checks), ни одна модель не могла предсказать последствия . В такие моменты компания переходит на гибридный режим: автоматизированные системы дополняются ручным управлением операторов, которые могут быстро корректировать параметры рынка, не дожидаясь накопления данных для переобучения моделей .