# Гэри Рен из DoorDash: «ML предсказывает хаос, а математика находит из него выход»

Источник: https://www.youtube.com/watch?v=UxNq3DC0G6U
Канал: The TWIML AI Podcast
Опубликовано: 10.09.2020

---

Логистика «последней мили» — это сложнейший механизм, где точность прогнозов напрямую влияет на прибыльность бизнеса и лояльность клиентов. В рамках подкаста *The TWIML AI Podcast* Сэм Чаррингтон беседует с **Гэри Реном**, инженером по машинному обучению в компании **DoorDash**, о том, как технологический стек компании справляется с хаосом реального мира, объединяя классические методы оптимизации и современные алгоритмы глубокого обучения.

## 🍔 Трехсторонний маркетплейс и роль ML
[[JUMP:03:08]]

Бизнес-модель DoorDash строится на взаимодействии трех ключевых групп: потребителей, мерчантов (ресторанов и магазинов) и «дашеров» (курьеров) [03:36]. У каждой стороны свои цели:

*   **Потребители** ценят удобство и доступ к любимым заведениям, не выходя из дома.
*   **Мерчанты** стремятся увеличить охват и выручку за счет доставки.
*   **Дашеры** ищут гибкие возможности для заработка [03:48].

Машинное обучение пронизывает каждый аспект этого взаимодействия. Между потребителями и мерчантами ML решает задачи традиционной электронной коммерции: ранжирование поиска и рекомендации [04:14]. В связке потребитель-дашер на первый план выходят задачи прогнозирования спроса и предложения, а также динамическое ценообразование. Взаимодействие дашеров и мерчантов требует сложных алгоритмов диспетчеризации для оптимального соответствия курьера конкретному заказу [04:54].

Одной из самых сложных задач Рен называет прогнозирование времени приготовления блюда [05:07]. Несмотря на то что DoorDash запрашивает оценки у самих ресторанов, на кухне часто царит суета, и повара не могут дать точный прогноз. Система ML анализирует исторические данные, учитывая сложность блюд (будь то паста, пицца или просто мороженое), чтобы уточнить время готовности и не заставлять курьера ждать [05:59].

## ⚙️ Логистический движок: от прогноза к действию
[[JUMP:06:54]]

Логистическая система DoorDash — это не монолит, а комплекс взаимосвязанных приложений, работающих в несколько этапов [09:18]. Рен выделяет три ключевые стадии планирования:

1.  **Балансировка рынка.** Начинается за несколько дней до фактического заказа. Система прогнозирует, сколько будет заказов и сколько курьеров выйдет на линию. Если ожидается дефицит курьеров, DoorDash заранее создает стимулы (бонусы), чтобы дашеры могли спланировать свой график [10:35].
2.  **Планирование маршрутов.** В реальном времени просчитываются тысячи потенциальных путей между курьером, рестораном и клиентом [08:25].
3.  **Оптимальное сопоставление (Assignment).** Финальный этап, где система решает, какой именно дашер заберет конкретный заказ, минимизируя время доставки [08:52].

Рен подчеркивает, что балансировка спроса продолжается вплоть до реального времени. Если система видит внезапный перекос, она может отправить пуш-уведомление курьерам о том, что сейчас «жарко», или применить *surge pricing* (повышающие коэффициенты), чтобы снизить избыточный спрос [11:39].

## 🧪 Гибридный подход: ML плюс исследование операций (OR)
[[JUMP:15:25]]

Одной из центральных тем обсуждения стало сочетание машинного обучения и традиционных методов исследования операций (Operations Research, OR) [15:51]. По словам Гэри Рена, ML-модели отлично справляются с прогнозированием неизвестных величин (спроса, погоды, времени готовки), но они не предназначены для принятия решений в условиях жестких ограничений по стоимости и качеству.

Для поиска оптимальных стимулов (бонусов) для курьеров компания использует **целочисленное программирование** (*Integer Programming*).

*   **ML-модели** поставляют входные данные: вероятный спрос и предложение.
*   **OR-система** берет эти данные и решает математическую задачу оптимизации, где целью является максимизация качества доставки, а ограничением — бюджет на выплаты [18:10].

Гэри Рен объясняет выбор такого подхода тем, что в DoorDash тысячи регионов и временных интервалов. Человеку-оператору невозможно решить, стоит ли добавить лишний доллар бонуса в Сан-Франциско или перенаправить его в Сан-Хосе. Математическая оптимизация позволяет автоматически находить идеальный баланс [19:05].

## 🤖 Эксперименты с обучением с подкреплением (Reinforcement Learning)
[[JUMP:23:29]]

DoorDash активно исследует возможность использования обучения с подкреплением (RL), чтобы сделать системы еще более адаптивными. Проблема сопоставления курьеров и заказов идеально укладывается в парадигму RL:

*   **Состояние (State):** Текущее распределение заказов и курьеров.
*   **Действие (Action):** Вариант назначения курьеров на заказы.
*   **Награда (Reward):** Метрики скорости доставки и эффективности маркетплейса [23:57].

Однако здесь инженеры сталкиваются с проблемой огромного пространства действий. Рен отмечает, что даже для 15 курьеров и 15 заказов существует более 1 триллиона возможных комбинаций [27:20]. Чтобы обойти это ограничение, команда DoorDash использует хитрость: вместо того чтобы выбирать конкретные пары «курьер-заказ», RL-агент выбирает оптимальный вариант (вариацию) самого алгоритма назначения в текущих условиях [28:01]. По результатам тестов, этот метод позволил сократить время доставки на несколько секунд, что в масштабах миллионов заказов дает колоссальный эффект [28:26].

## 🚧 Трудности внедрения и «эффект Игры престолов»
[[JUMP:36:19]]

Работа в реальном мире сопряжена с высокой вариативностью. Гэри вспоминает, что во время выхода новых серий «Игры престолов» DoorDash фиксировал огромные всплески спроса каждое воскресенье — люди хотели успеть поесть до начала шоу [36:49]. Подобные аномалии (праздники, Супербоул, пандемия) делают данные в продакшене крайне нестабильными.

Для поддержания надежности DoorDash инвестирует в инженерные системы мониторинга [38:20]:

1.  Отслеживание расхождений (*Training-Serving Skew*) между данными обучения и реальными данными.
2.  Автоматическое переобучение моделей при деградации их точности.
3.  Использование эвристик для «подстраховки» ML-моделей в непредсказуемых ситуациях.

Когда началась пандемия COVID-19 или когда в США начали выплачивать стимулирующие чеки (*stimulus checks*), ни одна модель не могла предсказать последствия [40:06]. В такие моменты компания переходит на гибридный режим: автоматизированные системы дополняются ручным управлением операторов, которые могут быстро корректировать параметры рынка, не дожидаясь накопления данных для переобучения моделей [42:31].