Луна Донг о создании Product Knowledge Graph в Amazon

The TWIML AI Podcast 2,7 тыс. 46 мин 10 мин 26.02.2021
Главное

В новом выпуске подкаста TWIML AI старший главный исследователь Amazon Луна Донг (Luna Dong) подробно рассказала о создании и масштабировании систем управления знаниями на примере платформы Product Knowledge Graph. В интервью обсуждаются архитектура современных графов знаний, интеграция машинного обучения на всех этапах обработки данных, а также вызовы, с которыми сталкивается ритейл-гигант при каталогизации миллиардов товаров. Материал раскрывает внутреннюю кухню технологических процессов, обеспечивающих точность поиска и релевантность рекомендаций для конечных пользователей.

🚪 Вход через «заднюю дверь»: от баз данных к машинному обучению 0:01

Луна Донг начала свой путь в технологиях с академических исследований. Её докторская диссертация в Вашингтонском университете (UW) была посвящена интеграции данных — бесшовному объединению информации из множества разрозненных источников. Гостья вспомнила шутку своего научного руководителя, который часто говорил, что пришел в сферу баз данных через «заднюю дверь» искусственного интеллекта. Сама Луна Донг, по её словам, проделала обратный путь: будучи активным участником сообщества баз данных, она вошла в мир машинного обучения (ML) с аналогичного «черного входа», замкнув этот своеобразный круг.

Переломным моментом для индустрии стал 2012 год, когда компания Google запустила свой первый Knowledge Graph. С этого момента концепция графов знаний обрела колоссальную популярность, заставив крупные корпорации и университеты направить ресурсы на её развитие.

Луна Донг занимается разработкой графов знаний последние девять лет. Она подчёркивает, что построение подобных систем требует привлечения экспертизы из самых разных областей:

Машинное обучение, по мнению гостьи, выступает в качестве фундаментального ядра, связывающего эти дисциплины воедино. Ведущий подкаста Сэм Чаррингтон отметил, что концепция графов знаний во многом решает задачу интеграции корпоративной информации (Enterprise Information Integration) — проблему создания единого легкодоступного слоя над всеми данными организации, над которой индустрия работает последние 10–20 лет.

🧠 Что такое граф знаний и как он устроен 4:00

По определению Луны Донг, граф знаний стремится имитировать то, как человеческий разум воспринимает и структурирует реальный мир. Маленькие дети начинают понимать объекты (мама, папа, собака, дом) и связи между ними задолго до того, как освоят навыки чтения или письма. Граф знаний фиксирует эти сущности и их взаимосвязи, опираясь на три ключевые характеристики:

1. Структурированность данных

Граф представляет собой не просто массивы неразмеченного текста, а четко определенные сущности, их свойства и зафиксированные отношения между ними.

2. Канонизация и высокое качество

Данные должны быть полными, очищенными от ошибок и приведенными к единому стандарту. Луна Донг проиллюстрировала это личным примером: её официальное имя в документах — Син Донг (Xin Dong), однако в профессиональном сообществе она известна как Луна. Независимо от изменения её внешности с годами или перехода из одной компании в другую, в качественном графе знаний она должна оставаться одной каноничной сущностью, а не пятью разными профилями. Читатель или алгоритм должен иметь возможность полностью доверять графу как авторитетному источнику истины.

3. Связность доменов

Различные информационные пласты — бизнес, кинематограф, музыка, университеты и потребительские товары — объединяются в общую сеть. Это позволяет выстраивать логические цепочки и рассуждать о контексте: например, автоматически связывать мерч-футболку с изображением Дарт Вейдера с персонажем франшизы «Звёздные войны».

⚖️ Медиа против ритейла: специфика данных в Amazon 10:10

Луна Донг присоединилась к команде Amazon более четырёх лет назад, фактически став одним из инициаторов создания глобального Product Knowledge Graph. Масштаб ритейл-гиганта огромен: система оперирует миллиардами товаров, а изменения в каталог вносятся миллионами профилей ежедневно. При этом количество уникальных типов продуктов, в зависимости от гранулярности моделирования, приближается к миллиону, и каждый тип обладает уникальным набором свойств. В таких условиях ручная модерация невозможна, что делает машинное обучение критически важным инструментом масштабирования.

Проект разработки графа знаний в Amazon разделен на три ключевых направления:

Медиа-продукты (Media Knowledge Graph)

Сюда относятся книги, музыка, фильмы и подкасты. Как утверждает эксперт, работа с этим сегментом имеет свою специфику: издатели и дистрибьюторы изначально профессионально обучены предоставлять структурированные метаданные. Они четко указывают режиссеров, исполнителей, даты релизов и языковые дорожки. Основная задача инженеров здесь сводится к интеграции готовых данных из разных авторитетных источников.

Потребительские товары (Retail Knowledge Graph)

Этот домен включает электронику, одежду, мебель и товары для дома. Здесь ситуация кардинально иная: продавцы редко генерируют чистые структурированные данные. Вся ключевая информация «зашита» в хаотичные, перегруженные ключевыми словами названия товаров, текстовые описания и маркетинговые буллеты. Для ритейл-графа инженерам Amazon приходится внедрять дополнительный этап — извлекать структурированные атрибуты из неструктурированных текстов и изображений, попутно отсекая информационный шум.

Извлечение веб-знаний (Web Knowledge Extraction)

Этот сегмент сфокусирован на сборе внешней информации с официальных сайтов брендов и производителей для обогащения каталога Amazon и поддержки экосистемы голосового ассистента Alexa.

⚙️ Эволюция извлечения информации и конвейер ML 14:32

Дисциплина извлечения информации (Information Extraction) зародилась около 30 лет назад. Изначально она была сфокусирована на двух задачах: определении отношений наследования (например, «X является художником») и выделении событий из новостных лент (кто, что, где, когда и как сделал). Бум графов знаний сместил фокус на извлечение сложных взаимосвязей между сущностями из полуструктурированных веб-ресурсов, таких как IMDb или Rotten Tomatoes, где данные представлены не сплошным текстом, а специфической разметкой.

По словам Луны Донг, для обучения таких моделей используется «сид-знания» (seed knowledge) и подходы слабого контроля (weak learning / distant supervision). Ручная разметка миллионов связей слишком трудоёмка, поэтому система использует уже имеющуюся базу данных для автоматической генерации обучающих выборок. Это напоминает человеческое обучение: чем больше у вас базовых знаний, тем быстрее вы усваиваете новую информацию.

Пять этапов конвейера обработки данных

Современный конвейер построения графа знаний в Amazon состоит из следующих последовательных ML-этапов:

  1. Извлечение знаний (Knowledge Extraction): Алгоритмы NLP и компьютерного зрения сканируют текстовые описания, изображения, веб-страницы и html-таблицы.
  2. Интеграция данных (Data Integration): На этом шаге решаются задачи разрешения сущностей (Entity Resolution) и сопоставления схем. Модели определяют, являются ли разные написания одной и той же сущностью или связью (например, сопоставляют предикаты «director of» и «director»).
  3. Очистка данных и обнаружение аномалий (Anomaly Detection): Алгоритмы ищут логические несоответствия. Луна Донг привела пример: если в поле «цвет товара» среди типичных вариантов появляется значение «со вкусом ванили», система фиксирует ошибку. Другой маркер — анализ «соседних» категорий товаров. Для мороженого стандартными вкусами будут шоколад, мята или ваниль. Появление вкуса «острый/пряный» (spicy) будет расценено как аномалия, если только этот товар не произведен в Индии.
  4. Слияние данных (Data Fusion): Разрешение конфликтов между источниками. По словам гостьи, даже для очень известных знаменитостей разные сайты могут указывать противоречивые данные (например, даты рождения 28 февраля и 28 марта). Системы слияния на основе вероятностных моделей вычисляют наиболее достоверный вариант.
  5. Векторные представления (Embeddings): На базе графовых нейросетей (GNN), получивших мощное развитие за последние пять лет, система строит эмбеддинги для каждого узла и связи. Информация распространяется по триплетам формата «субъект-предикат-объект» (например, [Продукт] -> [имеет вкус] -> [острый]). Это позволяет неявным образом кодировать сложные контекстуальные ограничения и передавать их в поисковые движки.

Луна Донг шутит в разговорах с коллегами, что если бы для создания лучшего графа знаний потребовалось изучить механическую инженерию, они бы сделали это. Однако на практике именно технологии машинного обучения, разработанные в самых разных дисциплинах, оказываются ключевым решением.

🤝 Роль человека в цикле: достижение 99% точности 24:13

По мнению Луны Донг, концепция «человека в цикле» (Human in the Loop) незаменима при работе с критически важными бизнес-данными. Если с помощью «чистого» машинного обучения можно достичь точности предсказаний на уровне 90%, то поднять планку до 99% без привлечения экспертов практически невозможно.

Задача инженеров заключается в умном распределении ролей между ИИ и людьми. Люди участвуют в процессе на нескольких уровнях: от генерации первичных аннотаций (которые изначально поступают от ритейлеров) до финальной валидации пограничных и спорных случаев, выявляемых моделями. Для минимизации рутины Amazon сейчас активно внедряет инструменты автоматического машинного обучения (AutoML).

В качестве иллюстрации идеального взаимодействия Луна Донг привела аналогию с логистическими центрами (Fulfillment Centers) Amazon. Центральная ИТ-система такого хаба знает всё о текущих целях: она решает, сколько товаров нужно пересчитать в конкретной корзине, куда направить роботов и где проверить ошибку. Она оптимально комбинирует вычислительную мощность машин и физический труд людей. Похожим образом, считает гостья, должна строиться и ML-платформа, представляя собой бесшовную синергию машинного и человеческого интеллекта для достижения наивысшего качества знаний.

🗺️ Стратегия веб-краулинга: баланс ресурсов и полноты 28:56

Масштаб интернета заставляет крупные компании искать баланс между качеством собираемых данных и вычислительными ресурсами, необходимыми для их обработки. Луна Донг объяснила, что Amazon использует гибкий подход к веб-краулингу, который не является строго бинарным.

Для стандартных потребительских товаров эффективен целевой краулинг (targeted crawling). Инженеры составляют списки ведущих мировых брендов и производителей, после чего роботы целенаправленно собирают информацию только с их официальных сайтов.

Однако для медиа-индустрии такая тактика не подходит. Если собирать данные только с крупных порталов, за бортом останется огромный массив независимой музыки, подкастов и фильмов из так называемого «длинного хвоста» (long tail). В таких сценариях Amazon приходится сканировать веб-пространство более широко, переходя к стратегиям тотального краулинга, близким к моделям работы поисковых систем уровня Google.

🛒 Как граф знаний работает на практике на Amazon.com 37:11

Разрабатываемый граф знаний в Amazon — это не просто исследовательский концепт, а полноценная производственная система (production system), ежедневно обслуживающая клиентов платформы. Гостья выделила три магистральных направления применения этой технологии в инфраструктуре Amazon:

Поиск и навигация

Система помогает глубже понимать намерения пользователя (customer intent) из поискового запроса. Например, если клиент ищет «шампунь», граф знаний активирует теги категорий и предлагает уточняющие фильтры (например, «для мужчин»), помогая точнее сопоставить текстовый запрос с реальным ассортиментом склада.

Рекомендательные системы

Опираясь на структурные связи, алгоритмы могут не просто предложить случайный похожий товар, но и кастомизировать выдачу. Они находят устройства с альтернативным объёмом памяти, другие конфигурации моделей или автоматически подбирают совместимые аксессуары к просматриваемому продукту, аргументируя этот выбор для покупателя.

Страницы товаров и сравнение характеристик

Структурированные таблицы характеристик на детальных страницах Amazon.com генерируются на основе данных из графа знаний. В настоящее время компания активно экспериментирует с тем, как на основе этих структурированных знаний автоматически создавать более наглядные и интеллектуальные таблицы сравнения конкурирующих продуктов.

🛠️ Инструменты для малого бизнеса и перспективы федерации 39:56

Отвечая на вопрос ведущего о том, как масштабировать эти технологии «вниз» — для личных проектов или уровня небольших компаний, Луна Донг разделила архитектуру необходимых инструментов на три условных уровня:

Что касается создания единого глобального API или федерации графов знаний, способной объединить базы данных Amazon, Google и других технологических гигантов, то здесь Луна Донг настроена скептически. Подобные инициативы развиваются преимущественно в академической среде — гостья упомянула консорциум schema.org и проект Open Knowledge, получающий государственное финансирование.

Однако крупные корпорации не демонстрируют интереса к объединению интерфейсов. Создание качественного графа знаний требует колоссальных финансовых, временных и инженерных инвестиций. По этой причине коммерческие компании рассматривают свои очищенные базы данных как ценнейший закрытый актив, который они не готовы безвозмездно разделять с рынком. По словам Луны Донг, данные имеют конкретную стоимость, и отсутствие бесплатного доступа оправдано, поскольку в противном случае у разработчиков исчезнет экономическая мотивация заниматься их сбором и очисткой.

💬 Цитаты

«Граф знаний стремится имитировать то, как человеческий разум воспринимает реальный мир.»

Луна Донг 04:00

«Когда мы хотим дойти до 99% точности без человека в цикле, это практически невозможно.»

Луна Донг 25:45

«Данные имеют ценность, и мы не должны получать их бесплатно, иначе у людей не будет мотивации работать с ними.»

Луна Донг 45:37
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Граф знаний (Knowledge Graph)
Способ представления данных в виде сети, где узлы обозначают сущности, а рёбра — связи между ними.
Канонизация (Canonicalization)
Процесс приведения различных вариантов написания одного имени или термина к единому стандартному виду.
Слабый контроль (Weak Supervision / Weak Learning)
Подход в машинном обучении, использующий зашумленные или автоматически сгенерированные источники для создания обучающих выборок.
Эмбеддинг (Embedding)
Векторное представление объекта, кодирующее его семантический смысл в сжатом математическом пространстве.
Графовая нейросеть (GNN)
Класс нейросетей, разработанный для эффективной обработки данных, имеющих структуру графа.
📊 Цифры
🗓 Хронология
  1. 2012 год Компания Google запускает свой Knowledge Graph, спровоцировав бум технологий управления знаниями.
  2. Около 2017 года Луна Донг присоединяется к Amazon и становится соинициатором разработки Product Knowledge Graph.
⚖️ Другая сторона
Искусственный интеллект Граф знаний Amazon Машинное обучение Интеграция данных