Основатель Shelf Седрик Болл: «Неструктурированные данные — это топливо для ИИ, но оно может быть грязным»

В современном мире искусственного интеллекта данные часто называют «новой нефтью», однако в сыром виде они могут быть так же опасны для механизмов, как неочищенное топливо для реактивного двигателя. Седрик Болл (Cedric Borre), основатель компании Shelf.io, в беседе с Крейгом Смитом на канале Eye on AI подробно объясняет, почему без системы очистки и обсервации неструктурированных данных внедрение генеративного ИИ в бизнесе обречено на стагнацию из-за галлюцинаций и ошибок.

🛠 От консалтинга к автоматизации: как родился слой обсервации данных 0:00

История компании Shelf началась не с разработки ИИ-алгоритмов, а с реальной «боли» в сфере управления знаниями (Knowledge Management). Седрик Болл, чей путь пролегал через аналитические центры в Трансильвании, консалтинг для Гарварда, Массачусетского технологического института (MIT) и Всемирного банка, годами наблюдал одну и ту же проблему: качество человеческого капитала нивелируется хаосом в файловых системах .

По данным Болла, в экосистеме Microsoft ежедневно создается около 2 миллионов сайтов SharePoint и загружается более 2 миллиардов файлов . В таких масштабах данные неизбежно подвергаются энтропии:

Версии документов дублируются и противоречат друг другу .
Информация устаревает быстрее, чем ее успевают обновлять.
Регламенты перестают соответствовать нормативным требованиям.

Основанная в 2017 году компания Shelf изначально создавалась как слой обсервации (observability layer), который позволяет компаниям видеть, что происходит внутри их архивов, прежде чем подключать к ним сложные аналитические системы . По утверждению Болла, появление технологий генеративного ИИ (GenAI) лишь обострило старую проблему: если раньше плохие данные просто затрудняли человеческий поиск, то теперь они напрямую ведут к провалам внедрения больших языковых моделей (LLM) .

🧠 Проблема «Мусор на входе — мусор на выходе»: ИИ против энтропии 5:42

Главным препятствием для масштабирования GenAI в бизнесе Болл называет «непроницаемую завесу» над корпоративными документами. В отличие от открытого интернета, внутренние данные компаний не имеют прозрачной аналитики. Это критично для таких инициатив, как RAG (Retrieval-Augmented Generation — генерация с дополнением данных извне) и Microsoft Copilot .

Для решения проблемы Shelf использует систему из более чем 150 автономных агентов и 22 специализированных алгоритмов . В отличие от простых систем сравнения файлов, Shelf работает на уровне разделов документов:

Поиск конфликтов: Если один документ утверждает, что дата рождения сотрудника в октябре, а другой — в марте, система пометит это как конфликт .
Детекция рисков: Алгоритмы выявляют токсичность, предвзятость, отсутствие контекста и нарушение комплаенса в конкретных параграфах.
Мониторинг в реальном времени: Система способна отследить, когда ответ ИИ был сформирован на основе «плохого» или неактуального куска данных .

Болл подчеркивает, что их подход позволяет не просто констатировать наличие галлюцинаций у ИИ, но и математически обосновать причину их возникновения, связывая ответ модели с конкретным источником риска .

🚀 Стратегия внедрения: «Пополз, пошел, побежал» 11:48

На вопрос ведущего о том, нужно ли полностью вычищать базу данных перед запуском ИИ, Болл предлагает прагматичный подход «Craw, Walk, Run». Он утверждает, что большинство компаний обращаются к ним в состоянии «Хьюстон, у нас проблемы», когда уже запущенный пилотный проект на базе RAG начинает выдавать недостоверные ответы и не может быть масштабирован .

Основные сценарии использования Shelf:

Реактивный: Исправление галлюцинаций в уже работающих системах .
Проактивный: Подготовка данных (Data Readiness) перед запуском инициатив ответственного ИИ (Responsible AI).
Гибридный: Создание автоматических фильтров и «шлюзов», которые блокируют попадание сомнительного контента в LLM в момент обработки запроса .

Болл объясняет, что компаниям не стоит пытаться «проглотить всего зверя целиком». Если у организации 1,5 петабайта данных, Shelf выявит миллионы проблем, которые люди физически не смогут исправить вручную . Вместо этого эффективнее выбрать конкретный кейс — например, онбординг сотрудников — и навести идеальный порядок в документах, обеспечивающих именно этот бизнес-процесс .

📊 Состояние рынка: от POC к массовому производству 20:47

Согласно опросу, проведенному компанией Shelf среди крупных предприятий, рынок GenAI находится в фазе взрывного роста :

Более 70% организаций уже имеют активные (а не просто планируемые) проекты в области GenAI .
В 2024 году лишь 10% компаний готовы к промышленному запуску («в продакшн»), но к концу 2025 года Сатья Наделла прогнозирует рост этого показателя до 80% .
Масштаб проблемы поражает: у 80% опрошенных компаний в распоряжении более миллиона документов, а у 51% — более 10 миллионов .

Седрик Болл подчеркивает, что попытки компаний решить проблему качества данных простым дообучением (fine-tuning) или сложными цепочками технологий без очистки первоисточника — это путь в никуда . По его мнению, качественная онтология и граф знаний остаются единственным надежным фундаментом для снижения галлюцинаций .

🏺 Ценность «мертвых данных» и риски их удаления 31:42

Одной из самых спорных тем в управлении знаниями является вопрос хранения архивных данных. Седрик Болл категорически не согласен с идеей «выбросить всё старое, чтобы не путать ИИ» . У этого утверждения есть несколько причин:

Организационное обучение: Удаление старых файлов означает потерю опыта, накопленного за годы .
Конкурентное преимущество: Компании вроде P&G или IKEA используют архивные данные о продуктах прошлых лет для проектирования новых линеек . ИИ способен найти в этих «залежах» закономерности, которые недоступны человеческому мозгу.
R&D: Старая литература по продажам или маркетингу может содержать инсайты о том, что работало в определенных рыночных условиях десятилетия назад .

Задача Shelf в данном контексте — не удалять, а маркировать данные, отделяя «золотые самородки» от устаревших дубликатов процедур .

🔮 Прогноз на 2025 год: ИИ-агенты и инфраструктура 37:40

Взгляд Болла на будущее технологий оптимистичен, но прагматичен. Он ожидает, что 2025 год станет годом «уверенного ИИ», когда компании перейдут от автоматизации простых задач к внедрению целых «роев» (swarms) автономных агентов .

Ключевые тезисы Седрика Болла о будущем:

Данные как топливо: Неважно, победит ли OpenAI, Anthropic или Google в «войне моделей». Все они потребляют неструктурированные данные и выдают их же. Без стратегии управления этим «топливом» двигатели бизнеса не будут работать должным образом .
Конвергенция: Прогресс ИИ усилится за счет слияния с биотехнологиями, интернетом вещей (IoT) и робототехникой .
Интеграция с Microsoft: Shelf активно работает над тем, чтобы стать связующей тканью для Microsoft Copilot Studio и AI Foundry, обеспечивая точность корпоративных помощников .

В завершение беседы Седрик Болл призвал руководителей задуматься о своей «стратегии неструктурированных данных» уже сейчас . По его мнению, именно те, кто инвестирует в чистоту информации на входе, выиграют гонку эффективности в 2025 году.