Основатель Shelf Седрик Болл: «Неструктурированные данные — это топливо для ИИ, но оно может быть грязным»

Eye on AI 746 45 мин 5 мин 29.12.2024
Главное

В современном мире искусственного интеллекта данные часто называют «новой нефтью», однако в сыром виде они могут быть так же опасны для механизмов, как неочищенное топливо для реактивного двигателя. Седрик Болл (Cedric Borre), основатель компании Shelf.io, в беседе с Крейгом Смитом на канале Eye on AI подробно объясняет, почему без системы очистки и обсервации неструктурированных данных внедрение генеративного ИИ в бизнесе обречено на стагнацию из-за галлюцинаций и ошибок.

🛠 От консалтинга к автоматизации: как родился слой обсервации данных 0:00

История компании Shelf началась не с разработки ИИ-алгоритмов, а с реальной «боли» в сфере управления знаниями (Knowledge Management). Седрик Болл, чей путь пролегал через аналитические центры в Трансильвании, консалтинг для Гарварда, Массачусетского технологического института (MIT) и Всемирного банка, годами наблюдал одну и ту же проблему: качество человеческого капитала нивелируется хаосом в файловых системах .

По данным Болла, в экосистеме Microsoft ежедневно создается около 2 миллионов сайтов SharePoint и загружается более 2 миллиардов файлов . В таких масштабах данные неизбежно подвергаются энтропии:

Основанная в 2017 году компания Shelf изначально создавалась как слой обсервации (observability layer), который позволяет компаниям видеть, что происходит внутри их архивов, прежде чем подключать к ним сложные аналитические системы . По утверждению Болла, появление технологий генеративного ИИ (GenAI) лишь обострило старую проблему: если раньше плохие данные просто затрудняли человеческий поиск, то теперь они напрямую ведут к провалам внедрения больших языковых моделей (LLM) .

🧠 Проблема «Мусор на входе — мусор на выходе»: ИИ против энтропии 5:42

Главным препятствием для масштабирования GenAI в бизнесе Болл называет «непроницаемую завесу» над корпоративными документами. В отличие от открытого интернета, внутренние данные компаний не имеют прозрачной аналитики. Это критично для таких инициатив, как RAG (Retrieval-Augmented Generation — генерация с дополнением данных извне) и Microsoft Copilot .

Для решения проблемы Shelf использует систему из более чем 150 автономных агентов и 22 специализированных алгоритмов . В отличие от простых систем сравнения файлов, Shelf работает на уровне разделов документов:

  1. Поиск конфликтов: Если один документ утверждает, что дата рождения сотрудника в октябре, а другой — в марте, система пометит это как конфликт .
  2. Детекция рисков: Алгоритмы выявляют токсичность, предвзятость, отсутствие контекста и нарушение комплаенса в конкретных параграфах.
  3. Мониторинг в реальном времени: Система способна отследить, когда ответ ИИ был сформирован на основе «плохого» или неактуального куска данных .

Болл подчеркивает, что их подход позволяет не просто констатировать наличие галлюцинаций у ИИ, но и математически обосновать причину их возникновения, связывая ответ модели с конкретным источником риска .

🚀 Стратегия внедрения: «Пополз, пошел, побежал» 11:48

На вопрос ведущего о том, нужно ли полностью вычищать базу данных перед запуском ИИ, Болл предлагает прагматичный подход «Craw, Walk, Run». Он утверждает, что большинство компаний обращаются к ним в состоянии «Хьюстон, у нас проблемы», когда уже запущенный пилотный проект на базе RAG начинает выдавать недостоверные ответы и не может быть масштабирован .

Основные сценарии использования Shelf:

Болл объясняет, что компаниям не стоит пытаться «проглотить всего зверя целиком». Если у организации 1,5 петабайта данных, Shelf выявит миллионы проблем, которые люди физически не смогут исправить вручную . Вместо этого эффективнее выбрать конкретный кейс — например, онбординг сотрудников — и навести идеальный порядок в документах, обеспечивающих именно этот бизнес-процесс .

📊 Состояние рынка: от POC к массовому производству 20:47

Согласно опросу, проведенному компанией Shelf среди крупных предприятий, рынок GenAI находится в фазе взрывного роста :

Седрик Болл подчеркивает, что попытки компаний решить проблему качества данных простым дообучением (fine-tuning) или сложными цепочками технологий без очистки первоисточника — это путь в никуда . По его мнению, качественная онтология и граф знаний остаются единственным надежным фундаментом для снижения галлюцинаций .

🏺 Ценность «мертвых данных» и риски их удаления 31:42

Одной из самых спорных тем в управлении знаниями является вопрос хранения архивных данных. Седрик Болл категорически не согласен с идеей «выбросить всё старое, чтобы не путать ИИ» . У этого утверждения есть несколько причин:

Задача Shelf в данном контексте — не удалять, а маркировать данные, отделяя «золотые самородки» от устаревших дубликатов процедур .

🔮 Прогноз на 2025 год: ИИ-агенты и инфраструктура 37:40

Взгляд Болла на будущее технологий оптимистичен, но прагматичен. Он ожидает, что 2025 год станет годом «уверенного ИИ», когда компании перейдут от автоматизации простых задач к внедрению целых «роев» (swarms) автономных агентов .

Ключевые тезисы Седрика Болла о будущем:

  1. Данные как топливо: Неважно, победит ли OpenAI, Anthropic или Google в «войне моделей». Все они потребляют неструктурированные данные и выдают их же. Без стратегии управления этим «топливом» двигатели бизнеса не будут работать должным образом .
  2. Конвергенция: Прогресс ИИ усилится за счет слияния с биотехнологиями, интернетом вещей (IoT) и робототехникой .
  3. Интеграция с Microsoft: Shelf активно работает над тем, чтобы стать связующей тканью для Microsoft Copilot Studio и AI Foundry, обеспечивая точность корпоративных помощников .

В завершение беседы Седрик Болл призвал руководителей задуматься о своей «стратегии неструктурированных данных» уже сейчас . По его мнению, именно те, кто инвестирует в чистоту информации на входе, выиграют гонку эффективности в 2025 году.

💬 Цитаты

«Если вы попытаетесь запустить реактивный самолет без топлива, он никуда не полетит. В мире будущего неструктурированные данные — это топливо.»

Седрик Болл 40:32

«Мы создали слой обсервации из нужды, под давлением и из боли, чтобы дать клиентам возможность доверять своим данным.»

Седрик Болл 00:00
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval-Augmented Generation)
Метод, при котором ИИ сначала ищет информацию в базе данных, а затем на её основе генерирует ответ.
Слой обсервации (Observability layer)
Инфраструктура для мониторинга и анализа состояния данных внутри системы.
Энтропия данных
Естественный процесс накопления хаоса, дубликатов и устаревшей информации в файловых системах.
📊 Цифры
🗓 Хронология
  1. 2017 Основание компании Shelf и выход продукта на рынок.
  2. 2024 Текущий этап: большинство компаний (90%) находятся на стадии POC (пилотных проектов) в GenAI.
  3. 2025 Ожидаемый скачок: массовый переход предприятий к полноценному использованию ИИ в производстве.
⚖️ Другая сторона
Искусственный интеллект Shelf.io Седрик Болл RAG Data Quality Microsoft Copilot