# Инна Токарев Шела о бесприложенческом будущем и анализе метаданных

Источник: https://www.youtube.com/watch?v=-h9omYPyM_0
Канал: The Cognitive Revolution
Опубликовано: 15.02.2025

---

В условиях стремительного развития генеративного искусственного интеллекта многие команды стремятся автоматизировать создание нишевых программ, однако израильский стартап illumex предлагает принципиально иной подход — будущее, полностью свободное от традиционных интерфейсов софта. В интервью каналу The Cognitive Revolution исполнительный директор компании Инна Токарев Шела (Inna Tokarev Sela) рассказала, как скрещивание графов знаний, семантических эмбеддингов и больших языковых моделей позволяет сотрудникам общаться с корпоративными базами данных напрямую через привычные мессенджеры. Ключом к этой технологии становится автоматизированное управление метаданными, которое обеспечивает безопасность корпоративного уровня и кардинально снижает вычислительные затраты предприятий.

## 🌐 Концепция Application-Free: конец эпохи софтверного хаоса
[[JUMP:04:48]]

Основанный в 2021 году стартап illumex развивает идею так называемого «бесприложенческого» будущего (application-free future). Как отмечает исполнительный директор компании Инна Токарев Шела, современный ИТ-рынок перенасыщен нишевыми инструментами, однако бизнес-пользователи не хотят тратить рабочее время на освоение десятков новых интерфейсов, поскольку у них есть свои прямые обязанности. Постоянное переключение между окнами и проблемы с глубокой интеграцией различных программ создают избыточную когнитивную нагрузку на сотрудников.

В противовес популярным концепциям, предполагающим взрывной рост одноразовых или узкокастомных приложений, Шела видит будущее в создании единого лаунчера или интерфейса на базе естественного языка, такого как Slack или Teams. По её прогнозам, в этой модели вся оркестровка, вызовы необходимых программ и передача данных будут происходить исключительно в фоновом режиме, избавляя человека от необходимости помнить правильный порядок кликов для решения аналитической задачи.

Ведущий подкаста Нейтан Лабенц соглашается с этой перспективой, отмечая, что сам давно мечтает о возможности работать полностью «отвязавшись» от рабочего стола с помощью продвинутых голосовых интерфейсов, оперативно получая ответы на сложные вопросы во время прогулок на свежем воздухе. В качестве демонстрации Шела показывает работу бота illumex в Slack. Пользователь вводит простой текстовый вопрос о количестве товаров на складе, и система в автоматическом режиме (autopilot) сопоставляет запрос с семантической онтологией, извлекая точные данные и генерируя SQL-код без ручного участия человека.

## 🗄️ Укрощение хаоса корпоративных данных через метаданные
[[JUMP:13:37]]

Одной из главных проблем крупных предприятий остается отсутствие единого источника истины. По словам Шела, корпоративная ИТ-инфраструктура сегодня представляет собой сложный гибридный стек. Коммерческая информация может одновременно храниться в устаревших локальных СУБД, современных облачных хранилищах и разрозненных аналитических системах.

Типичный стек крупного клиента включает в себя следующие платформы:

* Традиционные базы данных: Oracle, SAP, Microsoft SQL Server, Teradata, Vertica.
* Современные облачные платформы: Amazon Redshift, Snowflake, Databricks.
* Инструменты бизнес-аналитики (BI): Tableau, PowerBI.

Чтобы связать эти разрозненные системы без масштабной миграции данных, illumex создала готовые канонические, или «платонические», модели данных для различных отраслей — от электронной коммерции и логистики до фармацевтики и производства. При подключении нового клиента автоматизированная система illumex анализирует исключительно метаданные: схемы таблиц, логи запросов и сигнатуры API приложений. На основе этого анализа система проецирует индивидуальную ИТ-среду компании на канонический отраслевой шаблон, выявляя несоответствия, дубликаты и нестыковки в наименованиях.

Весь процесс автоматического онбординга занимает всего несколько дней, даже если инфраструктура клиента включает миллионы таблиц. При этом стартап не требует перемещения данных в сторонние векторные базы или облака, создавая виртуальный слой знаний. По мнению Шела, такой подход кардинально отличается от стандартных техник RAG (Retrieval-Augmented Generation), требующих сложной ручной разметки и предоставления примеров.

## 🧬 Таксономия и анализ использования: как понять «нечитаемый» код
[[JUMP:27:03]]

Серьезным вызовом при работе с метаданными является хаотичное именование таблиц и колонок разработчиками, которые нередко используют сокращения или внутренний сленг. Инна Шела подчёркивает, что illumex принципиально не доверяет чистой семантике, даже если имена полей кажутся очевидными. Вместо этого платформа строит таксономию на основе глубокого анализа контекста использования данных.

Для восстановления истинного значения скрытых сущностей система анализирует:

1.  Историю логов и запросов пользователей к различным базам.
2.  Математические формулы и логику расчетов в отчетах бизнес-аналитики.
3.  Трансформации данных внутри конвейеров, например в DBT-пайплайнах.
4.  Взаимосвязи колонок, используемых для вычисления ключевых метрик, таких как атрибуция каналов продаж.

Если понятная колонка и колонка с зашифрованным именем (например, «V_RX») участвуют в одной формуле или имеют схожий контекст вызова в API, система методом дедукции автоматически определяет бизнес-смысл неизвестного поля.

Нейтан Лабенц поделился личным опытом столкновения с этой проблемой в своей компании Waymark, занимающейся созданием видеороликов. При попытке использовать семантические эмбеддинги для подбора видеошаблонов под бренд клиента команда Лабенца обнаружила, что стандартные модели ориентируются на случайный заполняющий текст-заглушку в шаблоне, полностью игнорируя «вайб», темп и энергетику видео. Шела объясняет эту неудачу тем, что структурированные данные сами по себе лишены контекста. 

В illumex эта проблема решена за счет жесткого правила: если элемент канонической онтологии не находит реального подтверждения в логах использования данных клиента, он полностью удаляется из итоговой модели, исключая галлюцинации. Для этого применяется ансамбль из десятков специализированных моделей, включая графовые нейронные сети (GNN) для поиска совпадений подграфов. Эффективность такого подхода подтверждается внутренними тестами: при автоматическом построении онтологии на базе академического бенчмарка Spider система illumex показала точность 91%, причем оставшиеся 9% ошибок, по словам Шела, были вызваны некорректными данными в самом открытом датасете.

## 🤝 Управление, доверие и человек в контуре управления
[[JUMP:38:08]]

Важным элементом архитектуры illumex является вовлечение человека в контур управления (human-in-the-loop). Поскольку доверие к ИИ-агентам в корпоративной среде остается критическим фактором, платформа предоставляет нетехническим бизнес-пользователям и владельцам данных удобные интерфейсы для верификации и сертификации автоматически созданных определений.

По мнению Инны Шела, предварительное построение и фиксация семантического контекста дают два ключевых преимущества:

* Экономия бюджетов: поисковый запрос пользователя сначала проходит через предопределенный фильтр онтологии, и к языковой модели отправляется уже очищенный структурированный контекст. Это позволяет экономить до 80% затрат на токены по сравнению с классическими RAG-системами.
* Синхронизация ИИ-агентов: в условиях перехода индустрии к мультиагентным рабочим процессам крайне важно иметь единый контекстный слой. Если каждая модель будет использовать собственный изолированный контекст, они никогда не придут к согласию. Благодаря единой онтологии illumex позволяет клиентам собирать цепочки из различных агентных моделей от разных провайдеров (например, через AWS Bedrock или Nvidia NIM) в рамках единой логики.

Отдельное внимание Шела обращает на проблему комплаенса и контроля данных (governance). В традиционном ИТ-секторе управление рисками, этика, борьба с предвзятостью и защита персональных данных (PII) изолированы внутри отделов рисков и никак не связаны с ИИ-разработкой. Платформа illumex содержит встроенный компонент комплаенса, который автоматически проводит аудит конфликтов логики, дубликатов и наличия конфиденциальной информации. При этом рядовые пользователи принципиально лишены возможности перепрограммировать бизнес-логику через текстовый интерфейс, что исключает случайные искажения на уровне организации. Изменения в систему вносятся только при фиксации обновлений в исходных метаданных, о чем платформа оперативно сигнализирует администраторам.

## 📊 Надежность вычислений: сравнение ИИ с человеком
[[JUMP:50:38]]

Обсуждая надежность предоставляемых данных, Нейтан Лабенц признался в своем растущем скептицизме по отношению к отчетам, составляемым живыми аналитиками, отметив, что человеческий фактор часто приводит к скрытым ошибкам и неверным допущениям. Инна Шела подтверждает наличие этой проблемы и указывает на важное психологическое различие: штатные аналитики часто раздражаются из-за бесконечных уточняющих вопросов руководства о методологии расчетов. Робота же illumex можно допрашивать до бесконечности, заставляя его проводить реверс-инжиниринг каждой цифры и объяснять, на основе каких формул и какого процента API-вызовов был сформирован ответ. Это, как считает гостья, помогает бизнесу выстроить подлинное доверие к аналитике.

Согласно внутренней статистике illumex, точность ответов системы на основе активно используемых данных превышает 95%. Если же речь идет о неиспользуемых («темных») корпоративных данных, платформа в случае невозможности составить корректный запрос выдает сообщение об отсутствии ответа. По утверждению Шела, в 100% таких случаев причиной является физическая порча, пропуски или некорректное дублирование информации в исходных базах клиента.

При этом спикеры сходятся во мнении, что автоматизация не приведет к полному исчезновению профессии аналитика. По словам Шела, составление официальных отчетов для советов директоров или государственных регуляторов в обозримом будущем останется за людьми из-за юридической ответственности. Однако ИИ позволит решить проблему «обделенных сотрудников»: во многих корпорациях целые департаменты ждут создания необходимых им BI-панелей по 9 месяцев из-за перегрузки ИТ-отдела, и внедрение умных дата-копилотов способно закрыть этот внутренний дефицит.

## 🛡️ Архитектура безопасности и коммерческая модель без «сюрпризов»
[[JUMP:1:03:27]]

Важным стратегическим решением illumex, принятым еще на этапе проектирования в 2021 году, стал полный отказ от просмотра содержимого пользовательских таблиц. Работа исключительно с метаданными была продиктована жесткими требованиями безопасности со стороны крупных регулируемых предприятий.

Архитектурно процесс обработки запроса выглядит следующим образом:

1.  Сотрудник пишет вопрос на естественном языке в мессенджере (например, Slack).
2.  Текст отправляется в облачную систему illumex, которая сопоставляет его с метаданными онтологии.
3.  Платформа illumex генерирует безопасный SQL-запрос (tool call) и отправляет его обратно в локальную инфраструктуру клиента.
4.  Специальный коннектор выполняет этот запрос непосредственно внутри закрытой базы данных клиента и выводит результат на экран пользователя.

Таким образом, сама платформа illumex никогда не видит сырые данные, коммерческую тайну или персональные данные клиентов. Это позволяет стартапу проходить аудит безопасности в разы быстрее, минуя заполнение многостраничных опросников, что существенно ускоряет цикл продаж.

Безопасность ИТ-инфраструктуры напрямую дополняется предсказуемой моделью монетизации. Шела отмечает, что классическая тарификация за каждого пользователя (per-seat) теряет актуальность в эпоху ИИ-агентов, способных отправлять тысячи автоматических запросов. Кроме того, неконтролируемый рост затрат на облачные вычисления в 2023 году затормозил внедрение нейросетей во многих корпорациях. 

Чтобы избежать финансовых «сюрпризов», illumex использует фиксированные пакетные тарифы (sealed tiers), зависящие исключительно от количества подключенных источников данных. Стартовый пакет включает один источник, средний — от 3 до 5 баз данных, а корпоративный уровень предоставляет безлимитный доступ без ограничений по количеству рабочих мест или объему вычислений, что обеспечивает клиентам полную предсказуемость расходов.

## 🚀 Будущее профессий и новые подходы к обучению
[[JUMP:1:18:28]]

Размышляя о будущем рынка труда, Инна Шела выражает уверенность в том, что текущие профессии за время жизни одного поколения будут переизобретены несколько раз. Она прогнозирует масштабный сдвиг в ИТ-сфере: специалисты по данным и программисты превратятся из создателей контента (content creators) в контент-модераторов (content moderators). Роль человека сместится в сторону управления исключениями, разбора системных конфликтов и кастомизации опыта. Шела подчеркивает, что современные генеративные модели до сих пор плохо справляются с пониманием тонких человеческих намерений, метафор и аналогий, поэтому экспертные знания людей будут востребованы как никогда, но на более высоком уровне абстракции.

Этот подход к технологиям гостья переносит и на воспитание детей. Она делится личной историей о своем 9-летнем сыне, которому разрешила пользоваться ChatGPT с раннего возраста. По мнению Инны, популярная стратегия полного ограждения детей от гаджетов ошибочна. Вместо этого она учит сына критическому мышлению, умению перепроверять источники, жонглировать технологиями для решения задач и целенаправленно искать изъяны и ошибки в ответах нейросетей. Нейтан Лабенц поддерживает эту позицию, упоминая, что воспитывает троих детей (старшему из которых почти шесть лет) в схожем ключе.

В завершение дискуссии Шела дает неожиданный совет тем, кто хочет профессионально развиваться в сфере ИИ. Она считает, что современные академические исследования в области онтологий критически отстают от темпов коммерческого сектора, а ручное создание моделей данных, описываемое в университетских работах, не поддается масштабированию. В качестве редкого исключения она упоминает качественное исследование с конференции NIST, посвященное RAG-системам на базе онтологий для цепочек поставок. Тем не менее Инна советует амбициозным специалистам искать вдохновение и актуальные знания не в научных статьях, а «читая между строк» бизнес-презентации и технические отчеты крупнейших технологических гигантов, таких как DeepMind, и постоянно тестировать новые инструменты на практике.