Как графы знаний повышают точность корпоративного ИИ в три раза

The Cognitive Revolution 2,1 тыс. 1 ч 53 мин 8 мин 18.01.2024
Главное

Интеграция больших языковых моделей (LLM) и корпоративных данных стала одним из главных вызовов современной ИТ-индустрии. В интервью для подкаста The Cognitive Revolution руководитель лаборатории ИИ компании data.world Хуан Секеда подробно рассказывает, почему популярный подход «чат с данными» (наивный RAG) не работает в реальном бизнесе. Главный сюжет беседы разворачивается вокруг того, как графы знаний становятся тем самым «мозгом» организации, который обеспечивает точность, безопасность и проверяемость ответов ИИ.

🗂️ От «Гитхаба для данных» к корпоративному мозгу 6:31

Компания data.world была основана в 2016 году. На первом этапе своего развития она задумывалась как «GitHub для данных» — открытый каталог для публичных датасетов. Сегодня платформа остается крупнейшим в мире открытым каталогом данных, объединяющим более 2 миллионов пользователей, среди которых сотрудники двух третей компаний из списка Fortune 500. Во время пандемии именно на этой площадке аккумулировались ключевые открытые данные по COVID-19. Компания юридически оформлена как Public Benefit Corporation, что накладывает на нее обязательство не просто максимизировать прибыль акционеров, но и выполнять общественную миссию — архивировать мировые данные и продвигать открытые стандарты.

В районе 2019 года компания перешла ко второму этапу своего развития — созданию внутренних каталогов данных и маркетплейсов для коммерческих предприятий. С самого первого дня вся архитектура платформы проектировалась на основе графов знаний. Вся экосистема data.world строится на открытых веб-стандартах:

Любая информация, попадающая в data.world, автоматически преобразуется в граф. По мнению Хуана Секеды, управление метаданными — это фундамент для ИИ. Если базовые модели вроде GPT-4 обладают колоссальными общими знаниями, то они абсолютно лишены понимания специфического контекста конкретного предприятия. Графы знаний выступают в роли переводчика, снабжающего нейросеть точной семантикой.

🛠️ Три столпа управления метаданными: Поиск, управление и Data Ops 11:46

В реальной практике корпоративные клиенты используют каталоги данных для решения трех ключевых задач.

Первая задача — это поиск и обнаружение (Search & Discovery). В крупных компаниях озера данных часто превращаются в «болота», где аналитики тратят недели на поиск нужной информации. Хуан Секеда приводит аналогию с поисковой строкой Google: когда вы ищете «Остин», поисковик выдает справа так называемую панель знаний (Knowledge Panel) с погодой, картой и фактами, которая подтягивается из графа. Платформа data.world делает то же самое для компании: ИИ или человек видит не просто разрозненные SQL-таблицы, а связную карту, где базы данных соединены с колонками, дашбордами в Tableau или PowerBI, а также с конкретными авторами этих отчетов.

Вторая задача связана с управлением данными (Data Governance). Граф позволяет четко отслеживать политики доступа: кто имеет право просматривать информацию, где содержатся персональные данные (PII) и какие регуляторные правила необходимо соблюдать.

Третья задача — это операционная деятельность (Data Ops) и отслеживание происхождения данных (lineage). Система фиксирует весь путь трансформации данных. По словам гостя, если в дашборде Tableau ломается график, Data Ops на базе графа позволяет мгновенно размотать цепочку назад, найти сбойную таблицу и автоматически уведомить пользователей о технической проблеме.

📉 30 лет на одном месте: Почему индустрия до сих пор борется со «болотами данных» 23:59

Хуан Секеда выражает искреннее недовольство тем фактом, что современные технологические компании продолжают жаловаться на те же самые проблемы с данными, которые индустрия описывала 10, 20 и 30 лет назад. По мнению спикера, облака и инструменты самообслуживания упростили процессы, но суть осталась прежней — компании не умеют управлять смыслом (семантикой) информации.

Исторически бизнес пытался решить проблему доступности данных четырьмя путями:

  1. Сайло-подход (электронные таблицы). Пользователь запрашивает выгрузку, ему присылают Excel-файл. Метод не масштабируется, а у сотрудников часто расходятся интерпретации одних и тех же показателей.
  2. Прямой доступ к базам (запросы). Аналитикам дают возможность писать SQL-запросы напрямую. В итоге рождаются чудовищные многостраничные запросы, выполняющиеся по 20 минут, внутри которых намертво зашиты критически важные бизнес-правила, скрытые от остальной компании.
  3. Корпоративные хранилища данных (Data Warehouses). Проекты стоимостью в миллионы долларов, требующие годы на реализацию. По мнению Хуана Секеды, они чаще всего проваливаются не по техническим, а по социальным причинам: люди видят, что цифры из нового хранилища расходятся с их собственными отчетами, теряют доверие и возвращаются к своим привычным Excel-файлам.
  4. Озера данных (Data Lakes). Попытка свалить все сырые данные в одну кучу в надежде разобраться позже, что предсказуемо порождает хаос.

Гость подчеркивает существование огромного разрыва между производителями данных (инженерами) и их потребителями (аналитиками и бизнесом). Из-за этого разрыва аналитики тратят до 80% времени на очистку данных. При этом Хуан Секеда категорически не согласен с термином «техническая уборка данных» (data janitorial work). По его мнению, этот процесс на самом деле является извлечением глубинного смысла бизнеса, и относиться к нему как к рутинной работе уборщика — большая ошибка. Для ликвидации этого разрыва в индустрии рождаются новые роли: дата-продукт-менеджеры, инженеры знаний (Knowledge Engineers) и ученые по знаниям (Knowledge Scientists).

🔬 Эксперимент с GPT-4: Почему наивный SQL проигрывает графам знаний 58:02

Академические бенчмарки технологии Текст-в-SQL (Text-to-SQL) регулярно рапортуют о точности в 95%, однако Хуан Секеда относится к этим цифрам со скепсисом. По его словам, эти тесты проводятся на стерильных, маленьких базах данных, где семантика очевидна. Реальный enterprise-сегмент устроен гораздо сложнее. В июне на саммите Snowflake Summit представители индустрии бросили вызов команде data.world — провести честное исследование на базе реальной корпоративной модели данных.

Для эксперимента была взята открытая страховая схема стандартов OMG (Property & Casualty), полностью отражающая запутанную структуру реального бизнеса. Команда создала матрицу сложности вопросов, разделив их по двум осям:

Ученые создали детальный контекстный семантический слой. Например, в базе есть таблица claim (страховой случай) с двадцатью колонками. Колонка claim_identifier вопреки логике не содержит номер страхового случая — нужный номер лежит в колонке company_claim_number. Все эти нюансы и правила маппинга были зафиксированы.

Затем GPT-4 протестировали в двух конфигурациях. В первой ей на вход подавали стандартную схему базы данных (SQL DDL) и просили написать SQL-запрос. Во второй конфигурации модели давали онтологию графа знаний (стандарт OWL) и просили сгенерировать запрос на языке SPARQL.

Результаты показали трехкратное превосходство графов знаний в точности генерации кода. Самый важный вывод эксперимента: когда для ответа на вопрос языковой модели требовалось объединить (JOIN) более четырех таблиц, чистый SQL от GPT-4 демонстрировал стопроцентную частоту отказов и ошибок. Граф знаний за счет предопределенных связей успешно справлялся с этой задачей.

🤖 Будущее архитектуры: Агенты, метаданные и конец «буткемпов по кодингу» 1:07:44

На основе проведенного исследования Хуан Секеда рекомендует компаниям отказаться от идеи создания ИИ-систем «в лоб». По его мнению, современная архитектура RAG (генерация с дополнением извлечения) в ее текущем виде — это самый наивный и ограниченный вариант ИИ-агента. Будущее за гибридными системами, использующими наработки символического ИИ (Good Old-Fashioned AI) для планирования задач и декомпозиции запросов.

Гость дает три практических совета для внедрения изменений:

  1. Каталогизировать не только таблицы, но и сами вопросы пользователей, привязывая их к бизнес-целям компании.
  2. Инвестировать в семантический слой метаданных.
  3. Использовать метод «железной нити» (iron thread) — не пытаться объять необъятное, а настроить сквозной, пусть и узкий, путь от сырых данных до ответа ИИ для одной конкретной бизнес-задачи.

При проектировании долгосрочной памяти ИИ-систем Хуан Секеда рекомендует проводить тонкую настройку (fine-tuning) моделей исключительно на метаданных (структурах, правилах, терминах), но ни в коем случае не на самих сырых данных. Корпоративные данные слишком динамичны, огромны по объему и постоянно обновляются. Кроме того, если обучать LLM на самих данных, ее ответы всегда будут вероятностными, что недопустимо, например, для банковской сферы. ИИ должен быть не генератором ответов, а детерминированным помощником, пишущим проверяемый код запроса к верифицированному графу.

В дискуссии о технологическом стеке гость делится прогнозом: специализированные векторные базы данных не станут отдельной устойчивой категорией. По его мнению, векторный поиск — это функция, а не самостоятельный рынок. В ближайший год все традиционные SQL-платформы (Snowflake, Databricks) и графовые базы данных внедрят у себя векторные индексы, а среди чистых векторных БД останется один крупный монополист, как это произошло с MongoDB в мире NoSQL.

💡 Помимо чатов: Как ИИ изменит повседневную работу с данными 1:32:54

Возможности генеративного ИИ в контексте работы с данными выходят далеко за рамки простых интерфейсов вопросов и ответов. Хуан Секеда выделяет несколько перспективных направлений:

Хуан Секеда открыто заявляет, что автоматизация радикально изменит рынок труда. По его мнению, индустрия краткосрочных буткемпов по программированию будет полностью уничтожена, так как написание стандартного кода на 90% автоматизируется. Обычные аналитики, занимающиеся шаблонными отчетами, потеряют работу. В цене останутся глубокие компьютерные ученые, алгоритмисты и критические мыслители, способные видеть неочевидные взаимосвязи и формулировать саму логику решения проблем. Гость проводит историческую параллель с появлением печатной машинки: в свое время консерваторы считали ее оскорбительной, поскольку она уничтожала индивидуальный почерк автора, но в итоге технология просто перестроила мир.

В финале беседы спикер подчеркивает, что компаниям не стоит бояться зависимости от одного поставщика ИИ-моделей. Развитие пойдет по пути мультиоблачной архитектуры. Инвестируя в свой собственный «мозг» — граф знаний, — предприятие сможет легко подключать и менять внешние языковые модели как plug-and-play компоненты, используя их исключительно как экспертов по естественному языку.

💬 Цитаты

«Написание кода будет полностью автоматизировано, нам понадобятся настоящие алгоритмисты и компьютерные ученые, способные мыслить над решением проблем.»

«Большие языковые модели — это эксперты в языке, но они ничего не знают о вашей организации.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RDF
Открытый стандарт для описания ресурсов в виде графа, используемый для управления метаданными.
SPARQL
Язык запросов к данным, представленным в формате графа (RDF).
OWL
Язык веб-онтологий, используемый для явного определения семантики и схем данных.
Текст-в-SQL (Text-to-SQL)
Технология автоматического перевода запросов на естественном языке в структурированный код SQL.
Семантический слой (Semantic Layer)
Бизнес-представление корпоративных данных, помогающее конечному пользователю и ИИ понимать их смысл.
📊 Цифры
🗓 Хронология
  1. 2016 Основание компании data.world как платформы для открытых данных («GitHub для данных»).
  2. 2019 Переход data.world ко второй фазе развития — созданию коммерческих корпоративных каталогов данных.
  3. Июнь 2023 Вызов на саммите Snowflake Summit, побудивший команду Хуана Секеды создать академический бенчмарк для проверки ИИ.
⚖️ Другая сторона
Искусственный интеллект Хуан Секеда data.world Графы знаний Текст-в-SQL Семантический слой