# Акшат Каул из Redfin: «Алгоритмы предсказывают желания покупателей жилья лучше, чем их собственные фильтры»

Источник: https://www.youtube.com/watch?v=gFlMgmvduwc
Канал: The TWIML AI Podcast
Опубликовано: 26.10.2021

---

В современном мире недвижимости данные становятся таким же ценным активом, как и сами квадратные метры. Акшат Каул (Akshat Kaul), возглавляющий отдел данных и машинного обучения в Redfin, рассказал в подкасте The TWIML AI Podcast о том, как технологии ИИ трансформируют процесс покупки и продажи жилья, от автоматической оценки стоимости до компьютерного зрения.

## 🏠 Эволюция машинного обучения в Redfin
[[JUMP:01:07]]

Компания Redfin изначально создавалась разработчиками программного обеспечения, что заложило технологический фундамент в основу брокерского бизнеса [01:07]. По словам Акшата Каула, команда машинного обучения существует в компании уже около 8-9 лет [02:12]. 

Исторически ИИ в Redfin развивался через три этапа:

1.  **Централизованная модель:** Одна команда «супергероев» (смесь дата-сайентистов и инженеров) решала все задачи — от разработки алгоритмов до создания инфраструктуры [02:37].
2.  **Диверсификация бизнеса:** Когда Redfin вышла за рамки брокерских услуг в сферы ипотечного кредитования (mortgage) и мгновенного выкупа жилья (RedfinNow), централизованная команда стала «бутылочным горлышком» [03:16].
3.  **Демократизация и платформа:** Переход к модели, где центральная команда предоставляет стандартизированные инструменты (Platform-as-a-Service), а прикладные задачи решаются инженерами внутри конкретных бизнес-подразделений [03:54].

## 📉 Redfin Estimate: как оценивается ваш дом
[[JUMP:05:15]]

Флагманский продукт компании — Redfin Estimate — представляет собой алгоритм расчета рыночной стоимости жилья [05:15]. Система анализирует более 500 точек данных для каждого объекта недвижимости в США [05:30].

Ключевые факторы, влияющие на точность оценки:

*   **Традиционные параметры:** Количество спален, ванных комнат, площадь и история продаж аналогичных домов [05:43].
*   **Географические данные:** Близость к кофейням (например, Starbucks), рекреационным центрам, а также нахождение в зонах риска наводнений [07:37].
*   **Пользовательское поведение:** Данные о трафике на сайте Redfin.com позволяют понять конкурентную среду в конкретном районе [08:17].

Акшат Каул отмечает, что использование данных о вовлеченности пользователей помогает корректировать цену в реальном времени. Если дом долго висит на рынке, несмотря на высокий трафик, это сигнал алгоритму, что заявленная цена может быть завышена [10:14]. Для защиты от манипуляций (например, накрутки просмотров ботами) компания использует системы фильтрации трафика с VPN и облачных провайдеров, таких как AWS [09:34].

### Технологический стек оценки
Гость подчеркнул, что Redfin не полагается на одну «волшебную» модель. Используется ансамбль методов:

*   **Классические модели:** Random Forest и Gradient Boosting [11:47].
*   **Глубокое обучение (Deep Learning):** Применяется в определенных модулях для повышения точности [12:00].
*   **Иерархические модели:** Разные подходы для домов, уже выставленных на продажу (on-market), и тех, что еще не вышли на рынок (off-market) [11:47].

## 🤖 Рекомендательные системы и психология покупателя
[[JUMP:13:01]]

Рекомендательный движок Redfin стал мощным драйвером роста. Если 5 лет назад рекомендации генерировали 8% трафика, то сейчас — около 25%, притом что общий объем трафика компании вырос в три раза [13:52].

По словам Акшата Каула, алгоритмы часто оказываются эффективнее самих пользователей: люди охотнее кликают и записываются на просмотры домов, предложенных системой, чем тех, что подходят под их собственные фильтры поиска [14:20]. Это отражает сдвиг в ожиданиях — потребители хотят, чтобы сервис знал их предпочтения без необходимости заполнять сложные формы [15:13].

### Этика и ответственный ИИ
В вопросах ответственного ИИ Redfin придерживается политики исключения потенциально предвзятых данных. Например, компания осознанно не включает статистику преступности (crime data) в свои модели, чтобы избежать закрепления существующих рыночных предубеждений [17:23].

## 🦠 Пандемия как катализатор технологий
[[JUMP:19:06]]

COVID-19 радикально изменил рынок: рост цен достигал 26% в год, а более 60% покупателей делали предложения, не посещая дом лично [19:46]. Это заставило команду машинного обучения адаптироваться:

*   **Компьютерное зрение:** Redfin начал использовать CV для автоматической разметки планов этажей на изображениях, чтобы помочь людям понять планировку удаленно [20:52].
*   **Модели «Hot Homes»:** Чтобы помочь покупателям в сверхконкурентной среде, была разработана модель раннего обнаружения горячих предложений. Она прогнозирует вероятность быстрой продажи дома в момент публикации, не дожидаясь накопления статистики просмотров [22:36].
*   **Частое переобучение:** Из-за аномальной динамики рынка (взлет цен на частные дома и падение спроса на кондоминиумы) пришлось значительно увеличить частоту переобучения Redfin Estimate, что повысило операционные расходы, но позволило сохранить точность [25:15].

## 🛠 Инфраструктура: проект Red Eye
[[JUMP:33:52]]

Для масштабирования машинного обучения Redfin создала внутреннюю платформу под названием **Red Eye** [34:43].

Основные характеристики платформы:

*   **Оркестрация:** Переход от сложной самописной системы на базе Lambda-функций к стандартизированному **Airflow** [39:46].
*   **Управление жизненным циклом:** Активное использование **MLflow** для экспериментов [35:23].
*   **Feature Store:** Внутренняя библиотека признаков **Ohara**, объединенная с каталогом данных [35:36].
*   **Вычислительная среда:** Переход на **Kubernetes**. Акшат Каул пояснил, что они рассматривали Kubeflow, но сочли его слишком сложным, требующим от каждого ML-инженера глубоких знаний K8s [41:01].

В вопросе выбора облачных сервисов Redfin балансирует между скоростью и стоимостью. Акшат Каул утверждает, что такие инструменты, как **Amazon SageMaker** или **AutoML**, отлично подходят для быстрого прототипирования, но для работы в масштабе компания часто возвращается к более дешевым решениям на базе **Amazon EMR** [43:13].

## 🔮 Будущее: Computer Vision и автоматизация документов
[[JUMP:45:52]]

Акшат Каул выделил несколько перспективных направлений:

1.  **Интеллектуальный анализ документов:** Извлечение структурированной информации из PDF-файлов сделок с помощью OCR для предотвращения ошибок и задержек в транзакциях [28:48].
2.  **Глубокое понимание состояния дома:** Использование компьютерного зрения для оценки износа и качества отделки по фотографиям — задача, с которой алгоритмы в будущем могут справляться лучше человека [46:42].
3.  **Скепсис в отношении чат-ботов:** Гость признался, что он скептически относится к разговорному ИИ (Conversational AI) в сфере недвижимости. По его мнению, покупка дома — слишком дорогая и ответственная сделка, чтобы доверять её боту. Вместо этого Redfin фокусируется на инструментах для «человека в контуре» (human-in-the-loop), помогая агентам объяснять клиентам, как работают алгоритмы [32:12].

-