В современном мире искусственного интеллекта данные часто называют «новой нефтью», однако в сыром виде они могут быть так же опасны для механизмов, как неочищенное топливо для реактивного двигателя. Седрик Болл (Cedric Borre), основатель компании Shelf.io, в беседе с Крейгом Смитом на канале Eye on AI подробно объясняет, почему без системы очистки и обсервации неструктурированных данных внедрение генеративного ИИ в бизнесе обречено на стагнацию из-за галлюцинаций и ошибок.
🛠 От консалтинга к автоматизации: как родился слой обсервации данных 0:00
История компании Shelf началась не с разработки ИИ-алгоритмов, а с реальной «боли» в сфере управления знаниями (Knowledge Management). Седрик Болл, чей путь пролегал через аналитические центры в Трансильвании, консалтинг для Гарварда, Массачусетского технологического института (MIT) и Всемирного банка, годами наблюдал одну и ту же проблему: качество человеческого капитала нивелируется хаосом в файловых системах .
По данным Болла, в экосистеме Microsoft ежедневно создается около 2 миллионов сайтов SharePoint и загружается более 2 миллиардов файлов . В таких масштабах данные неизбежно подвергаются энтропии:
- Версии документов дублируются и противоречат друг другу .
- Информация устаревает быстрее, чем ее успевают обновлять.
- Регламенты перестают соответствовать нормативным требованиям.
Основанная в 2017 году компания Shelf изначально создавалась как слой обсервации (observability layer), который позволяет компаниям видеть, что происходит внутри их архивов, прежде чем подключать к ним сложные аналитические системы . По утверждению Болла, появление технологий генеративного ИИ (GenAI) лишь обострило старую проблему: если раньше плохие данные просто затрудняли человеческий поиск, то теперь они напрямую ведут к провалам внедрения больших языковых моделей (LLM) .
🧠 Проблема «Мусор на входе — мусор на выходе»: ИИ против энтропии 5:42
Главным препятствием для масштабирования GenAI в бизнесе Болл называет «непроницаемую завесу» над корпоративными документами. В отличие от открытого интернета, внутренние данные компаний не имеют прозрачной аналитики. Это критично для таких инициатив, как RAG (Retrieval-Augmented Generation — генерация с дополнением данных извне) и Microsoft Copilot .
Для решения проблемы Shelf использует систему из более чем 150 автономных агентов и 22 специализированных алгоритмов . В отличие от простых систем сравнения файлов, Shelf работает на уровне разделов документов:
- Поиск конфликтов: Если один документ утверждает, что дата рождения сотрудника в октябре, а другой — в марте, система пометит это как конфликт .
- Детекция рисков: Алгоритмы выявляют токсичность, предвзятость, отсутствие контекста и нарушение комплаенса в конкретных параграфах.
- Мониторинг в реальном времени: Система способна отследить, когда ответ ИИ был сформирован на основе «плохого» или неактуального куска данных .
Болл подчеркивает, что их подход позволяет не просто констатировать наличие галлюцинаций у ИИ, но и математически обосновать причину их возникновения, связывая ответ модели с конкретным источником риска .
🚀 Стратегия внедрения: «Пополз, пошел, побежал» 11:48
На вопрос ведущего о том, нужно ли полностью вычищать базу данных перед запуском ИИ, Болл предлагает прагматичный подход «Craw, Walk, Run». Он утверждает, что большинство компаний обращаются к ним в состоянии «Хьюстон, у нас проблемы», когда уже запущенный пилотный проект на базе RAG начинает выдавать недостоверные ответы и не может быть масштабирован .
Основные сценарии использования Shelf:
- Реактивный: Исправление галлюцинаций в уже работающих системах .
- Проактивный: Подготовка данных (Data Readiness) перед запуском инициатив ответственного ИИ (Responsible AI).
- Гибридный: Создание автоматических фильтров и «шлюзов», которые блокируют попадание сомнительного контента в LLM в момент обработки запроса .
Болл объясняет, что компаниям не стоит пытаться «проглотить всего зверя целиком». Если у организации 1,5 петабайта данных, Shelf выявит миллионы проблем, которые люди физически не смогут исправить вручную . Вместо этого эффективнее выбрать конкретный кейс — например, онбординг сотрудников — и навести идеальный порядок в документах, обеспечивающих именно этот бизнес-процесс .
📊 Состояние рынка: от POC к массовому производству 20:47
Согласно опросу, проведенному компанией Shelf среди крупных предприятий, рынок GenAI находится в фазе взрывного роста :
- Более 70% организаций уже имеют активные (а не просто планируемые) проекты в области GenAI .
- В 2024 году лишь 10% компаний готовы к промышленному запуску («в продакшн»), но к концу 2025 года Сатья Наделла прогнозирует рост этого показателя до 80% .
- Масштаб проблемы поражает: у 80% опрошенных компаний в распоряжении более миллиона документов, а у 51% — более 10 миллионов .
Седрик Болл подчеркивает, что попытки компаний решить проблему качества данных простым дообучением (fine-tuning) или сложными цепочками технологий без очистки первоисточника — это путь в никуда . По его мнению, качественная онтология и граф знаний остаются единственным надежным фундаментом для снижения галлюцинаций .
🏺 Ценность «мертвых данных» и риски их удаления 31:42
Одной из самых спорных тем в управлении знаниями является вопрос хранения архивных данных. Седрик Болл категорически не согласен с идеей «выбросить всё старое, чтобы не путать ИИ» . У этого утверждения есть несколько причин:
- Организационное обучение: Удаление старых файлов означает потерю опыта, накопленного за годы .
- Конкурентное преимущество: Компании вроде P&G или IKEA используют архивные данные о продуктах прошлых лет для проектирования новых линеек . ИИ способен найти в этих «залежах» закономерности, которые недоступны человеческому мозгу.
- R&D: Старая литература по продажам или маркетингу может содержать инсайты о том, что работало в определенных рыночных условиях десятилетия назад .
Задача Shelf в данном контексте — не удалять, а маркировать данные, отделяя «золотые самородки» от устаревших дубликатов процедур .
🔮 Прогноз на 2025 год: ИИ-агенты и инфраструктура 37:40
Взгляд Болла на будущее технологий оптимистичен, но прагматичен. Он ожидает, что 2025 год станет годом «уверенного ИИ», когда компании перейдут от автоматизации простых задач к внедрению целых «роев» (swarms) автономных агентов .
Ключевые тезисы Седрика Болла о будущем:
- Данные как топливо: Неважно, победит ли OpenAI, Anthropic или Google в «войне моделей». Все они потребляют неструктурированные данные и выдают их же. Без стратегии управления этим «топливом» двигатели бизнеса не будут работать должным образом .
- Конвергенция: Прогресс ИИ усилится за счет слияния с биотехнологиями, интернетом вещей (IoT) и робототехникой .
- Интеграция с Microsoft: Shelf активно работает над тем, чтобы стать связующей тканью для Microsoft Copilot Studio и AI Foundry, обеспечивая точность корпоративных помощников .
В завершение беседы Седрик Болл призвал руководителей задуматься о своей «стратегии неструктурированных данных» уже сейчас . По его мнению, именно те, кто инвестирует в чистоту информации на входе, выиграют гонку эффективности в 2025 году.