Луна Донг о создании Product Knowledge Graph в Amazon

В новом выпуске подкаста TWIML AI старший главный исследователь Amazon Луна Донг (Luna Dong) подробно рассказала о создании и масштабировании систем управления знаниями на примере платформы Product Knowledge Graph. В интервью обсуждаются архитектура современных графов знаний, интеграция машинного обучения на всех этапах обработки данных, а также вызовы, с которыми сталкивается ритейл-гигант при каталогизации миллиардов товаров. Материал раскрывает внутреннюю кухню технологических процессов, обеспечивающих точность поиска и релевантность рекомендаций для конечных пользователей.

🚪 Вход через «заднюю дверь»: от баз данных к машинному обучению 0:01

Луна Донг начала свой путь в технологиях с академических исследований. Её докторская диссертация в Вашингтонском университете (UW) была посвящена интеграции данных — бесшовному объединению информации из множества разрозненных источников. Гостья вспомнила шутку своего научного руководителя, который часто говорил, что пришел в сферу баз данных через «заднюю дверь» искусственного интеллекта. Сама Луна Донг, по её словам, проделала обратный путь: будучи активным участником сообщества баз данных, она вошла в мир машинного обучения (ML) с аналогичного «черного входа», замкнув этот своеобразный круг.

Переломным моментом для индустрии стал 2012 год, когда компания Google запустила свой первый Knowledge Graph. С этого момента концепция графов знаний обрела колоссальную популярность, заставив крупные корпорации и университеты направить ресурсы на её развитие.

Луна Донг занимается разработкой графов знаний последние девять лет. Она подчёркивает, что построение подобных систем требует привлечения экспертизы из самых разных областей:

Обработка естественного языка (NLP): необходима для глубинного понимания текстовой информации.
Компьютерное зрение (Computer Vision): позволяет извлекать знания непосредственно из изображений.
Интеллектуальный анализ данных (Data Mining): используется для поиска скрытых паттернов в текстах и графовых структурах.
Классические базы данных: обеспечивают очистку, интеграцию и поддержание высокого качества информации.

Машинное обучение, по мнению гостьи, выступает в качестве фундаментального ядра, связывающего эти дисциплины воедино. Ведущий подкаста Сэм Чаррингтон отметил, что концепция графов знаний во многом решает задачу интеграции корпоративной информации (Enterprise Information Integration) — проблему создания единого легкодоступного слоя над всеми данными организации, над которой индустрия работает последние 10–20 лет.

🧠 Что такое граф знаний и как он устроен 4:00

По определению Луны Донг, граф знаний стремится имитировать то, как человеческий разум воспринимает и структурирует реальный мир. Маленькие дети начинают понимать объекты (мама, папа, собака, дом) и связи между ними задолго до того, как освоят навыки чтения или письма. Граф знаний фиксирует эти сущности и их взаимосвязи, опираясь на три ключевые характеристики:

1. Структурированность данных

Граф представляет собой не просто массивы неразмеченного текста, а четко определенные сущности, их свойства и зафиксированные отношения между ними.

2. Канонизация и высокое качество

Данные должны быть полными, очищенными от ошибок и приведенными к единому стандарту. Луна Донг проиллюстрировала это личным примером: её официальное имя в документах — Син Донг (Xin Dong), однако в профессиональном сообществе она известна как Луна. Независимо от изменения её внешности с годами или перехода из одной компании в другую, в качественном графе знаний она должна оставаться одной каноничной сущностью, а не пятью разными профилями. Читатель или алгоритм должен иметь возможность полностью доверять графу как авторитетному источнику истины.

3. Связность доменов

Различные информационные пласты — бизнес, кинематограф, музыка, университеты и потребительские товары — объединяются в общую сеть. Это позволяет выстраивать логические цепочки и рассуждать о контексте: например, автоматически связывать мерч-футболку с изображением Дарт Вейдера с персонажем франшизы «Звёздные войны».

⚖️ Медиа против ритейла: специфика данных в Amazon 10:10

Луна Донг присоединилась к команде Amazon более четырёх лет назад, фактически став одним из инициаторов создания глобального Product Knowledge Graph. Масштаб ритейл-гиганта огромен: система оперирует миллиардами товаров, а изменения в каталог вносятся миллионами профилей ежедневно. При этом количество уникальных типов продуктов, в зависимости от гранулярности моделирования, приближается к миллиону, и каждый тип обладает уникальным набором свойств. В таких условиях ручная модерация невозможна, что делает машинное обучение критически важным инструментом масштабирования.

Проект разработки графа знаний в Amazon разделен на три ключевых направления:

Медиа-продукты (Media Knowledge Graph)

Сюда относятся книги, музыка, фильмы и подкасты. Как утверждает эксперт, работа с этим сегментом имеет свою специфику: издатели и дистрибьюторы изначально профессионально обучены предоставлять структурированные метаданные. Они четко указывают режиссеров, исполнителей, даты релизов и языковые дорожки. Основная задача инженеров здесь сводится к интеграции готовых данных из разных авторитетных источников.

Потребительские товары (Retail Knowledge Graph)

Этот домен включает электронику, одежду, мебель и товары для дома. Здесь ситуация кардинально иная: продавцы редко генерируют чистые структурированные данные. Вся ключевая информация «зашита» в хаотичные, перегруженные ключевыми словами названия товаров, текстовые описания и маркетинговые буллеты. Для ритейл-графа инженерам Amazon приходится внедрять дополнительный этап — извлекать структурированные атрибуты из неструктурированных текстов и изображений, попутно отсекая информационный шум.

Извлечение веб-знаний (Web Knowledge Extraction)

Этот сегмент сфокусирован на сборе внешней информации с официальных сайтов брендов и производителей для обогащения каталога Amazon и поддержки экосистемы голосового ассистента Alexa.

⚙️ Эволюция извлечения информации и конвейер ML 14:32

Дисциплина извлечения информации (Information Extraction) зародилась около 30 лет назад. Изначально она была сфокусирована на двух задачах: определении отношений наследования (например, «X является художником») и выделении событий из новостных лент (кто, что, где, когда и как сделал). Бум графов знаний сместил фокус на извлечение сложных взаимосвязей между сущностями из полуструктурированных веб-ресурсов, таких как IMDb или Rotten Tomatoes, где данные представлены не сплошным текстом, а специфической разметкой.

По словам Луны Донг, для обучения таких моделей используется «сид-знания» (seed knowledge) и подходы слабого контроля (weak learning / distant supervision). Ручная разметка миллионов связей слишком трудоёмка, поэтому система использует уже имеющуюся базу данных для автоматической генерации обучающих выборок. Это напоминает человеческое обучение: чем больше у вас базовых знаний, тем быстрее вы усваиваете новую информацию.

Пять этапов конвейера обработки данных

Современный конвейер построения графа знаний в Amazon состоит из следующих последовательных ML-этапов:

Извлечение знаний (Knowledge Extraction): Алгоритмы NLP и компьютерного зрения сканируют текстовые описания, изображения, веб-страницы и html-таблицы.
Интеграция данных (Data Integration): На этом шаге решаются задачи разрешения сущностей (Entity Resolution) и сопоставления схем. Модели определяют, являются ли разные написания одной и той же сущностью или связью (например, сопоставляют предикаты «director of» и «director»).
Очистка данных и обнаружение аномалий (Anomaly Detection): Алгоритмы ищут логические несоответствия. Луна Донг привела пример: если в поле «цвет товара» среди типичных вариантов появляется значение «со вкусом ванили», система фиксирует ошибку. Другой маркер — анализ «соседних» категорий товаров. Для мороженого стандартными вкусами будут шоколад, мята или ваниль. Появление вкуса «острый/пряный» (spicy) будет расценено как аномалия, если только этот товар не произведен в Индии.
Слияние данных (Data Fusion): Разрешение конфликтов между источниками. По словам гостьи, даже для очень известных знаменитостей разные сайты могут указывать противоречивые данные (например, даты рождения 28 февраля и 28 марта). Системы слияния на основе вероятностных моделей вычисляют наиболее достоверный вариант.
Векторные представления (Embeddings): На базе графовых нейросетей (GNN), получивших мощное развитие за последние пять лет, система строит эмбеддинги для каждого узла и связи. Информация распространяется по триплетам формата «субъект-предикат-объект» (например, [Продукт] -> [имеет вкус] -> [острый]). Это позволяет неявным образом кодировать сложные контекстуальные ограничения и передавать их в поисковые движки.

Луна Донг шутит в разговорах с коллегами, что если бы для создания лучшего графа знаний потребовалось изучить механическую инженерию, они бы сделали это. Однако на практике именно технологии машинного обучения, разработанные в самых разных дисциплинах, оказываются ключевым решением.

🤝 Роль человека в цикле: достижение 99% точности 24:13

По мнению Луны Донг, концепция «человека в цикле» (Human in the Loop) незаменима при работе с критически важными бизнес-данными. Если с помощью «чистого» машинного обучения можно достичь точности предсказаний на уровне 90%, то поднять планку до 99% без привлечения экспертов практически невозможно.

Задача инженеров заключается в умном распределении ролей между ИИ и людьми. Люди участвуют в процессе на нескольких уровнях: от генерации первичных аннотаций (которые изначально поступают от ритейлеров) до финальной валидации пограничных и спорных случаев, выявляемых моделями. Для минимизации рутины Amazon сейчас активно внедряет инструменты автоматического машинного обучения (AutoML).

В качестве иллюстрации идеального взаимодействия Луна Донг привела аналогию с логистическими центрами (Fulfillment Centers) Amazon. Центральная ИТ-система такого хаба знает всё о текущих целях: она решает, сколько товаров нужно пересчитать в конкретной корзине, куда направить роботов и где проверить ошибку. Она оптимально комбинирует вычислительную мощность машин и физический труд людей. Похожим образом, считает гостья, должна строиться и ML-платформа, представляя собой бесшовную синергию машинного и человеческого интеллекта для достижения наивысшего качества знаний.

🗺️ Стратегия веб-краулинга: баланс ресурсов и полноты 28:56

Масштаб интернета заставляет крупные компании искать баланс между качеством собираемых данных и вычислительными ресурсами, необходимыми для их обработки. Луна Донг объяснила, что Amazon использует гибкий подход к веб-краулингу, который не является строго бинарным.

Для стандартных потребительских товаров эффективен целевой краулинг (targeted crawling). Инженеры составляют списки ведущих мировых брендов и производителей, после чего роботы целенаправленно собирают информацию только с их официальных сайтов.

Однако для медиа-индустрии такая тактика не подходит. Если собирать данные только с крупных порталов, за бортом останется огромный массив независимой музыки, подкастов и фильмов из так называемого «длинного хвоста» (long tail). В таких сценариях Amazon приходится сканировать веб-пространство более широко, переходя к стратегиям тотального краулинга, близким к моделям работы поисковых систем уровня Google.

🛒 Как граф знаний работает на практике на Amazon.com 37:11

Разрабатываемый граф знаний в Amazon — это не просто исследовательский концепт, а полноценная производственная система (production system), ежедневно обслуживающая клиентов платформы. Гостья выделила три магистральных направления применения этой технологии в инфраструктуре Amazon:

Поиск и навигация

Система помогает глубже понимать намерения пользователя (customer intent) из поискового запроса. Например, если клиент ищет «шампунь», граф знаний активирует теги категорий и предлагает уточняющие фильтры (например, «для мужчин»), помогая точнее сопоставить текстовый запрос с реальным ассортиментом склада.

Страницы товаров и сравнение характеристик

Структурированные таблицы характеристик на детальных страницах Amazon.com генерируются на основе данных из графа знаний. В настоящее время компания активно экспериментирует с тем, как на основе этих структурированных знаний автоматически создавать более наглядные и интеллектуальные таблицы сравнения конкурирующих продуктов.

🛠️ Инструменты для малого бизнеса и перспективы федерации 39:56

Отвечая на вопрос ведущего о том, как масштабировать эти технологии «вниз» — для личных проектов или уровня небольших компаний, Луна Донг разделила архитектуру необходимых инструментов на три условных уровня:

Уровень хранения. Эксперт развеяла миф об обязательной сложности графовых баз данных, подчеркнув, что классические реляционные базы данных обладают точно такой же выразительной силой. Любой граф можно разложить в реляционную структуру и наоборот, хотя специализированные графовые СУБД (например, инструменты, доступные в облаке AWS) могут существенно упростить разработку.
Уровень сборки конвейера. Сюда относятся утилиты для веб-экстракции и связывания сущностей (entity linkage), позволяющие сопоставить данные, например, о фильмах из двух разных баз данных и понять, что это один и тот же объект. Ряд этих компонентов также предоставляется в рамках сервисов AWS, но индустрии еще предстоит объединить их в единый бесшовный инструментарий.
Уровень общечеловеческих знаний (Common Knowledge). Базовые, открытые наборы данных, которые могли бы стать бесплатным фундаментом, отправной точкой для создания нишевых, специализированных коммерческих графов малого бизнеса.

Что касается создания единого глобального API или федерации графов знаний, способной объединить базы данных Amazon, Google и других технологических гигантов, то здесь Луна Донг настроена скептически. Подобные инициативы развиваются преимущественно в академической среде — гостья упомянула консорциум schema.org и проект Open Knowledge, получающий государственное финансирование.

Однако крупные корпорации не демонстрируют интереса к объединению интерфейсов. Создание качественного графа знаний требует колоссальных финансовых, временных и инженерных инвестиций. По этой причине коммерческие компании рассматривают свои очищенные базы данных как ценнейший закрытый актив, который они не готовы безвозмездно разделять с рынком. По словам Луны Донг, данные имеют конкретную стоимость, и отсутствие бесплатного доступа оправдано, поскольку в противном случае у разработчиков исчезнет экономическая мотивация заниматься их сбором и очисткой.