Интеграция больших языковых моделей (LLM) и корпоративных данных стала одним из главных вызовов современной ИТ-индустрии. В интервью для подкаста The Cognitive Revolution руководитель лаборатории ИИ компании data.world Хуан Секеда подробно рассказывает, почему популярный подход «чат с данными» (наивный RAG) не работает в реальном бизнесе. Главный сюжет беседы разворачивается вокруг того, как графы знаний становятся тем самым «мозгом» организации, который обеспечивает точность, безопасность и проверяемость ответов ИИ.
🗂️ От «Гитхаба для данных» к корпоративному мозгу 6:31
Компания data.world была основана в 2016 году. На первом этапе своего развития она задумывалась как «GitHub для данных» — открытый каталог для публичных датасетов. Сегодня платформа остается крупнейшим в мире открытым каталогом данных, объединяющим более 2 миллионов пользователей, среди которых сотрудники двух третей компаний из списка Fortune 500. Во время пандемии именно на этой площадке аккумулировались ключевые открытые данные по COVID-19. Компания юридически оформлена как Public Benefit Corporation, что накладывает на нее обязательство не просто максимизировать прибыль акционеров, но и выполнять общественную миссию — архивировать мировые данные и продвигать открытые стандарты.
В районе 2019 года компания перешла ко второму этапу своего развития — созданию внутренних каталогов данных и маркетплейсов для коммерческих предприятий. С самого первого дня вся архитектура платформы проектировалась на основе графов знаний. Вся экосистема data.world строится на открытых веб-стандартах:
- RDF — стандарт для представления метаданных в виде графа.
- OWL — язык веб-онтологий для проектирования логических схем.
- SPARQL — язык графовых запросов.
Любая информация, попадающая в data.world, автоматически преобразуется в граф. По мнению Хуана Секеды, управление метаданными — это фундамент для ИИ. Если базовые модели вроде GPT-4 обладают колоссальными общими знаниями, то они абсолютно лишены понимания специфического контекста конкретного предприятия. Графы знаний выступают в роли переводчика, снабжающего нейросеть точной семантикой.
🛠️ Три столпа управления метаданными: Поиск, управление и Data Ops 11:46
В реальной практике корпоративные клиенты используют каталоги данных для решения трех ключевых задач.
Первая задача — это поиск и обнаружение (Search & Discovery). В крупных компаниях озера данных часто превращаются в «болота», где аналитики тратят недели на поиск нужной информации. Хуан Секеда приводит аналогию с поисковой строкой Google: когда вы ищете «Остин», поисковик выдает справа так называемую панель знаний (Knowledge Panel) с погодой, картой и фактами, которая подтягивается из графа. Платформа data.world делает то же самое для компании: ИИ или человек видит не просто разрозненные SQL-таблицы, а связную карту, где базы данных соединены с колонками, дашбордами в Tableau или PowerBI, а также с конкретными авторами этих отчетов.
Вторая задача связана с управлением данными (Data Governance). Граф позволяет четко отслеживать политики доступа: кто имеет право просматривать информацию, где содержатся персональные данные (PII) и какие регуляторные правила необходимо соблюдать.
Третья задача — это операционная деятельность (Data Ops) и отслеживание происхождения данных (lineage). Система фиксирует весь путь трансформации данных. По словам гостя, если в дашборде Tableau ломается график, Data Ops на базе графа позволяет мгновенно размотать цепочку назад, найти сбойную таблицу и автоматически уведомить пользователей о технической проблеме.
📉 30 лет на одном месте: Почему индустрия до сих пор борется со «болотами данных» 23:59
Хуан Секеда выражает искреннее недовольство тем фактом, что современные технологические компании продолжают жаловаться на те же самые проблемы с данными, которые индустрия описывала 10, 20 и 30 лет назад. По мнению спикера, облака и инструменты самообслуживания упростили процессы, но суть осталась прежней — компании не умеют управлять смыслом (семантикой) информации.
Исторически бизнес пытался решить проблему доступности данных четырьмя путями:
- Сайло-подход (электронные таблицы). Пользователь запрашивает выгрузку, ему присылают Excel-файл. Метод не масштабируется, а у сотрудников часто расходятся интерпретации одних и тех же показателей.
- Прямой доступ к базам (запросы). Аналитикам дают возможность писать SQL-запросы напрямую. В итоге рождаются чудовищные многостраничные запросы, выполняющиеся по 20 минут, внутри которых намертво зашиты критически важные бизнес-правила, скрытые от остальной компании.
- Корпоративные хранилища данных (Data Warehouses). Проекты стоимостью в миллионы долларов, требующие годы на реализацию. По мнению Хуана Секеды, они чаще всего проваливаются не по техническим, а по социальным причинам: люди видят, что цифры из нового хранилища расходятся с их собственными отчетами, теряют доверие и возвращаются к своим привычным Excel-файлам.
- Озера данных (Data Lakes). Попытка свалить все сырые данные в одну кучу в надежде разобраться позже, что предсказуемо порождает хаос.
Гость подчеркивает существование огромного разрыва между производителями данных (инженерами) и их потребителями (аналитиками и бизнесом). Из-за этого разрыва аналитики тратят до 80% времени на очистку данных. При этом Хуан Секеда категорически не согласен с термином «техническая уборка данных» (data janitorial work). По его мнению, этот процесс на самом деле является извлечением глубинного смысла бизнеса, и относиться к нему как к рутинной работе уборщика — большая ошибка. Для ликвидации этого разрыва в индустрии рождаются новые роли: дата-продукт-менеджеры, инженеры знаний (Knowledge Engineers) и ученые по знаниям (Knowledge Scientists).
🔬 Эксперимент с GPT-4: Почему наивный SQL проигрывает графам знаний 58:02
Академические бенчмарки технологии Текст-в-SQL (Text-to-SQL) регулярно рапортуют о точности в 95%, однако Хуан Секеда относится к этим цифрам со скепсисом. По его словам, эти тесты проводятся на стерильных, маленьких базах данных, где семантика очевидна. Реальный enterprise-сегмент устроен гораздо сложнее. В июне на саммите Snowflake Summit представители индустрии бросили вызов команде data.world — провести честное исследование на базе реальной корпоративной модели данных.
Для эксперимента была взята открытая страховая схема стандартов OMG (Property & Casualty), полностью отражающая запутанную структуру реального бизнеса. Команда создала матрицу сложности вопросов, разделив их по двум осям:
- Сложность бизнес-логики: от простых списков до стратегических вопросов с агрегацией и математическими вычислениями.
- Сложность структуры: от запросов к 1–2 таблицам до тяжелых соединений (JOIN) из 8–9 таблиц.
Ученые создали детальный контекстный семантический слой. Например, в базе есть таблица claim (страховой случай) с двадцатью колонками. Колонка claim_identifier вопреки логике не содержит номер страхового случая — нужный номер лежит в колонке company_claim_number. Все эти нюансы и правила маппинга были зафиксированы.
Затем GPT-4 протестировали в двух конфигурациях. В первой ей на вход подавали стандартную схему базы данных (SQL DDL) и просили написать SQL-запрос. Во второй конфигурации модели давали онтологию графа знаний (стандарт OWL) и просили сгенерировать запрос на языке SPARQL.
Результаты показали трехкратное превосходство графов знаний в точности генерации кода. Самый важный вывод эксперимента: когда для ответа на вопрос языковой модели требовалось объединить (JOIN) более четырех таблиц, чистый SQL от GPT-4 демонстрировал стопроцентную частоту отказов и ошибок. Граф знаний за счет предопределенных связей успешно справлялся с этой задачей.
🤖 Будущее архитектуры: Агенты, метаданные и конец «буткемпов по кодингу» 1:07:44
На основе проведенного исследования Хуан Секеда рекомендует компаниям отказаться от идеи создания ИИ-систем «в лоб». По его мнению, современная архитектура RAG (генерация с дополнением извлечения) в ее текущем виде — это самый наивный и ограниченный вариант ИИ-агента. Будущее за гибридными системами, использующими наработки символического ИИ (Good Old-Fashioned AI) для планирования задач и декомпозиции запросов.
Гость дает три практических совета для внедрения изменений:
- Каталогизировать не только таблицы, но и сами вопросы пользователей, привязывая их к бизнес-целям компании.
- Инвестировать в семантический слой метаданных.
- Использовать метод «железной нити» (iron thread) — не пытаться объять необъятное, а настроить сквозной, пусть и узкий, путь от сырых данных до ответа ИИ для одной конкретной бизнес-задачи.
При проектировании долгосрочной памяти ИИ-систем Хуан Секеда рекомендует проводить тонкую настройку (fine-tuning) моделей исключительно на метаданных (структурах, правилах, терминах), но ни в коем случае не на самих сырых данных. Корпоративные данные слишком динамичны, огромны по объему и постоянно обновляются. Кроме того, если обучать LLM на самих данных, ее ответы всегда будут вероятностными, что недопустимо, например, для банковской сферы. ИИ должен быть не генератором ответов, а детерминированным помощником, пишущим проверяемый код запроса к верифицированному графу.
В дискуссии о технологическом стеке гость делится прогнозом: специализированные векторные базы данных не станут отдельной устойчивой категорией. По его мнению, векторный поиск — это функция, а не самостоятельный рынок. В ближайший год все традиционные SQL-платформы (Snowflake, Databricks) и графовые базы данных внедрят у себя векторные индексы, а среди чистых векторных БД останется один крупный монополист, как это произошло с MongoDB в мире NoSQL.
💡 Помимо чатов: Как ИИ изменит повседневную работу с данными 1:32:54
Возможности генеративного ИИ в контексте работы с данными выходят далеко за рамки простых интерфейсов вопросов и ответов. Хуан Секеда выделяет несколько перспективных направлений:
- Автоматическое обогащение метаданных. Модели способны самостоятельно сканировать SQL-схемы и с высокой точностью определять колонки, которые могут содержать конфиденциальную информацию (PII), даже не заглядывая в сами данные.
- Генерация идей (Ideation). В рамках совместного проекта с крупнейшим рекламным агентством WPP ИИ научили анализировать структуру доступных данных компании и предлагать список неочевидных бизнес-вопросов, которые руководство даже не догадывалось задать.
- Сократический сбор знаний. data.world экспериментирует с ИИ-психологами, которые в формате диалога опрашивают сотрудников компании, вытягивая из их голов «племенные знания» (tribal knowledge) о бизнес-процессах, а затем автоматически формируют единый корпоративный глоссарий.
Хуан Секеда открыто заявляет, что автоматизация радикально изменит рынок труда. По его мнению, индустрия краткосрочных буткемпов по программированию будет полностью уничтожена, так как написание стандартного кода на 90% автоматизируется. Обычные аналитики, занимающиеся шаблонными отчетами, потеряют работу. В цене останутся глубокие компьютерные ученые, алгоритмисты и критические мыслители, способные видеть неочевидные взаимосвязи и формулировать саму логику решения проблем. Гость проводит историческую параллель с появлением печатной машинки: в свое время консерваторы считали ее оскорбительной, поскольку она уничтожала индивидуальный почерк автора, но в итоге технология просто перестроила мир.
В финале беседы спикер подчеркивает, что компаниям не стоит бояться зависимости от одного поставщика ИИ-моделей. Развитие пойдет по пути мультиоблачной архитектуры. Инвестируя в свой собственный «мозг» — граф знаний, — предприятие сможет легко подключать и менять внешние языковые модели как plug-and-play компоненты, используя их исключительно как экспертов по естественному языку.