Дата-революция Databricks: как ИИ-агенты объединяют корпоративные данные

Databricks 24,3 тыс. 2 ч 59 мин 25 мин 16.06.2026
Главное

Мир создал искусственный мозг, но до сих пор держал его в запертой комнате без доступа к реальному бизнесу. Databricks объявляет об окончании эпохи разрозненных данных, превращая корпоративные хранилища в единую «цифровую Пангею», где ИИ-агенты наконец получают контекст, необходимый для создания программного обеспечения в масштабах, немыслимых ранее.

🌐 Новая эра ИИ: От абстрактного интеллекта к бизнес-контексту 0:08

Конференция Data + AI Summit 2026 открылась масштабным заявлением о том, что эпоха «изолированного ИИ» подошла к концу. Али Годси (Ali Ghodsi) подчеркнул, что мир создал «искусственный мозг», но запер его в комнате, отрезав от реальных бизнес-операций . Сегодняшняя задача индустрии — дать этому интеллекту контекст, сохранив при этом контроль и безопасность . Масштаб события подтверждает значимость этой цели: на саммит зарегистрировалось более 100 000 человек из 174 стран , а в Сан-Франциско лично присутствуют более 31 000 участников , что делает его крупнейшим мероприятием в сфере данных и ИИ в мире .

Искусственный интеллект уже здесь: Почему академический AGI не работает в офисе? 7:53

Али Годси начал своё выступление с провокационного вопроса к аудитории: наступил ли уже «сильный искусственный интеллект» (AGI)? . Несмотря на то, что лишь около 5% присутствующих подняли руки , Годси утверждает: технически AGI уже с нами. В качестве доказательства он привёл пример сложнейшей математической задачи по вычислению 12-мерного спин-кобордизма , которую современные фронтирные модели решают с лёгкостью, в то время как для человека она практически непостижима .

Согласно бенчмарку «Humanity’s Last Exam» (Последний экзамен человечества), состоящему из 25 500 вопросов высшего уровня сложности, современные ИИ-агенты уже успешно справляются с половиной заданий . По определению, принятому в 2009 году в лаборатории AMP Lab при Калифорнийском университете в Беркли (где зародились проекты Spark и Databricks), мы уже превзошли планку AGI «на несколько световых лет» .

Однако Годси отмечает парадокс: почему же тогда в компаниях до сих пор нет сотен агентов, автономно ведущих переговоры и предлагающих бизнес-стратегии? . Проблема не в недостатке интеллекта, а в отсутствии контекста . Чтобы ИИ стал полезен в корпоративной среде, ему не нужно решать топологические задачи — ему нужен доступ к заметкам встреч, данным из Salesforce, цепочкам поставок и специфическим процессам каждой организации . Без этих «реальных данных» самый мощный интеллект остаётся лишь продвинутым чат-ботом.

Проблема контекста и четыре барьера на пути к корпоративному ИИ 12:26

Переход от общего интеллекта к корпоративному ИИ-агенту требует решения четырёх фундаментальных проблем :

  1. Контекст (Context): Необходимо собрать все данные организации — от транскриптов совещаний до разрозненных хранилищ — и сделать их пригодными для ИИ .
  2. Контроль и безопасность (Control): ИИ должен строго следовать политикам безопасности компании . Годси напомнил, что при выпуске модели Claude более 10% её навыков были потенциально вредоносными, поэтому аудит действий агентов критически важен .
  3. Стоимость (Cost): Бесконтрольное использование ИИ ведет к финансовому краху. Али процитировал CEO Uber, который сообщил, что компания потратила годовой бюджет на ИИ всего за один квартал .
  4. Свобода выбора (Choice): Избежание привязки к конкретному поставщику (vendor lock-in) . Учитывая, что многим компаниям в зале более 50 лет, их программный стек перегружен старым ПО, которое невозможно «вырвать» . Дата-платформа будущего обязана быть открытой.

Для обеспечения этого выбора Databricks продолжает развивать открытую экосистему. Али упомянул платформу LakeFlow для интеграции данных (подробнее о которой речь пойдет в главе 4) , а также развитие открытых стандартов, таких как Spark Real-time Mode (RTM), позволяющий достичь задержек в 10 миллисекунд . Также был отмечен успех Merck в создании модели TEDDY для разработки лекарств на базе трансформеров , что демонстрирует потенциал ИИ при наличии качественных данных.

Конец войны форматов: Полная унификация Delta Lake и Apache Iceberg 19:28

Одним из самых значимых анонсов главы стало окончательное решение спора между сторонниками форматов хранения Delta Lake и Apache Iceberg. Али Годси пригласил на сцену Райана Блу (Ryan Blue), создателя Apache Iceberg, чья компания была приобретена Databricks годом ранее .

Блу подтвердил свой старый тезис: «Пользователям не должно быть дела до форматов данных» . Идея Open Lakehouse заключается в том, чтобы использовать любой инструмент для любой задачи без необходимости копирования данных .

Основные этапы унификации:

Эта унификация позволяет компаниям строить аналитику, не опасаясь «застрять» в проприетарных форматах. Годси подчеркнул, что потребление Lakehouse-хранилища выросло в два раза за последний год . В рамках этой открытой стратегии компания также развивает проект Raiden — сверхбыстрый движок для аналитики в реальном времени (подробнее в главе 5) , и Lakebase — решение, позволяющее использовать Postgres напрямую поверх «озера» данных (подробнее в главе 6) . Главная цель — сделать данные в открытых форматах доступными для любого типа нагрузки: от транзакций до сложного ИИ.

🛡️ Единый контроль в эпоху ИИ-хаоса: Unity AI Gateway и управление затратами 25:17

От структурированных таблиц к ИИ-активам: эволюция Unity Catalog 28:43

Прежде чем переходить к интеллектуальным агентам, Али Годси (Ali Ghodsi) подчеркивает: фундамент для ИИ начинается с правильного слоя данных . Ранее в обсуждении упоминались возможности Lakebase для транзакционной обработки и интеграция через LakeFlow , но критическим элементом остается контроль. Проект Unity Catalog, запущенный несколько лет назад, изначально создавался для управления доступом к структурированным таблицам, скрывая, например, колонки с зарплатами сотрудников . Однако само название «Unity» (Единство) подразумевало амбициозную цель — объединить управление всеми активами предприятия: от PDF-файлов и моделей до 50 других типов данных, добавленных за последние годы .

Сегодня концепция расширяется до «демократизации данных» через открытость. Али Годси (Ali Ghodsi) отмечает, что Unity Catalog всегда был бесплатным и теперь полностью открыт (open source) . Важным шагом стало объявление проекта Open Sharing . В отличие от закрытых экосистем конкурентов, требующих покупки софта обоими участниками обмена, Open Sharing позволяет делиться не только данными в форматах Delta или Iceberg, но и ИИ-активами: агентами, навыками и моделями, в том числе развернутыми on-premise . Это создает базу для управления тем, что Годси называет «настоящим болотом» современных корпоративных ИИ-разработок .

Кризис управления: «токен-максинг» и чехарда моделей 30:53

Ситуация в современных организациях становится неуправляемой: разработчики используют Llama Index и LangChain, SaaS-провайдеры навязывают своих агентов, а сотрудники создают собственные MCP-серверы и файлы навыков . Али Годси (Ali Ghodsi) выделяет три фундаментальные проблемы, с которыми сталкивается бизнес в 2026 году:

  1. Бесконтрольные расходы. Затраты на ИИ взлетают до небес (skyrocketing), и ни у кого нет видимости, какой именно агент или модель «сжигает» бюджет . Происходит так называемый «токен-максинг» (token maxing), при котором невозможно установить лимиты или ограничения скорости (rate limiting) для всей организации целиком .
  2. Отсутствие надзора. Компании не могут гарантировать, что агенты имеют доступ только к разрешенным данным, не могут проводить их аудит, устанавливать фильтры (guardrails) на входные и выходные данные или управлять их идентификацией — от чьего имени действует агент? .
  3. Отсутствие выбора (vendor lock-in). Жизненный цикл передовых моделей сегодня составляет всего месяц . В ноябре лидерство было у Gemini, в феврале — у Claude Opus, затем у GPT-5.5, а на прошлой неделе все обсуждали Mythos или Fable . Организациям нужна гибкость, чтобы переключаться между ними без переписывания всей инфраструктуры .

Unity AI Gateway: «единое стекло» для ИИ-инфраструктуры 33:56

Решением этих проблем становится Unity AI Gateway — централизованная точка входа для всех агентов и ИИ-трафика компании . Будучи частью открытых проектов Unity Catalog и MLflow, шлюз позволяет управлять всеми затратами и политиками безопасности из единого интерфейса .

Уникальность предложения Databricks заключается в предоставлении емкостей (capacity) для сторонних моделей. Если компания зафиксировала контракт, скажем, на 100 000 долларов, она может тратить эти средства напрямую на токены OpenAI, Anthropic или Gemini через шлюз, работая в любом облаке — Azure, GCP или AWS .

Ключевые возможности Unity AI Gateway включают:

Подготовка контекста: от управления к интеллектуальным ответам 36:41

Завершая обсуждение контроля, Али Годси (Ali Ghodsi) переходит к следующему этапу — слою контекста. Проблема современных ИИ не в отсутствии интеллекта, а в нехватке контекста . Традиционные агенты тратят до 15 минут и огромные суммы денег на поиск ответа, блуждая по документам через MCP-серверы . Чтобы исправить это, Databricks внедряет технологии, которые будут подробно рассмотрены в следующих главах: Genie Ontology , алгоритм OntoRank и специализированные агенты, такие как Genie Zero Ops для автоматизации дата-инженерии .

Эти инструменты призваны превратить разрозненные данные в связный граф знаний, превращая «случайные блуждания» агентов в целенаправленную работу с данными . В конечном итоге, по словам Годси, это ведет к фундаментальной трансформации софта и появлению новых систем рекордов, ориентированных на агентов .

🤖 Эпоха Agentic System of Record: от разрозненных SaaS к единой экосистеме данных 50:25

Али Годси (Ali Ghodsi) открывает новую веху в архитектуре корпоративного ПО, констатируя кризис текущей модели SaaS . Последние два года каждый вендор стремился предоставить собственного ИИ-агента для доступа к своим данным, что привело к фрагментации: вопросы пользователей редко ограничиваются одной системой, а «договориться» между собой агенты разных компаний зачастую не могут . В результате корпоративная среда превращается в запутанный лабиринт .

Решением становится переход к Agentic System of Record — новой архитектуре, где агенты имеют прямой, быстрый и безопасный доступ к единому слою данных в открытом формате . Основные принципы этой системы:

По мнению Али Годси, именно платформа данных и ИИ становится новой «системой записи» (System of Record) будущего . Для реализации этой концепции Databricks активно развивает Databricks Apps — инструмент для демократизации доступа к данным, позволяющий создавать кастомные приложения . На саммите был анонсирован маркетплейс, где компании могут не только находить, но и покупать агентские приложения у сторонних вендоров, используя встроенные механизмы транзакций .

🛡️ Lakewatch и Customer Lake: специализированные ИИ-агенты для безопасности и маркетинга 54:04

Databricks расширяет свою экосистему, запуская вертикальные решения, построенные на принципах Agentic System of Record. Первым критическим направлением стала кибербезопасность. Али Годси анонсировал Lakewatch — «агентскую» SIEM-систему (Security Information and Event Management), работающую на базе Lakehouse . Традиционные SIEM стали слишком дорогими из-за взрывного роста объемов данных, что вынуждает компании фильтровать логи и пропускать важные сигналы . В условиях, когда лучшие хакеры мира — это автоматизированные системы вроде «Expo» , компаниям необходимо хранить все данные в дешевом открытом формате.

Ключевым событием в этом направлении стало поглощение компании Panther Labs . Али Годси отметил прозорливость основателя Panther Джека Нальери (Jack Naglieri), который ещё пять лет назад сделал ставку на «питонический» (Pythonic) подход к безопасности . Поскольку современные LLM лучше всего взаимодействуют именно с кодом на Python, это приобретение позволяет Lakewatch использовать сотни готовых коннекторов и автоматизировать работу SOC (Security Operations Center) . Агенты Lakewatch способны самостоятельно приоритизировать алерты и проводить «охоту за угрозами» (threat hunting) при появлении новых уязвимостей нулевого дня .

Вторым важным анонсом стал Customer Lake — агентская CDP (платформа клиентских данных) . Она включает два специализированных агента:

  1. Profile Agent: использует LLM для максимально точной дедупликации и идентификации клиентов, превосходя классические алгоритмические методы .
  2. Campaign Agent: реализует концепцию «бесконечных кампаний» (infinity campaigns) . Вместо того чтобы делить аудиторию на 100 сегментов, малые дистиллированные модели позволяют персонализировать каждое взаимодействие один-на-один в режиме реального времени .

🧠 Genie Ontology и OntoRank: как научить ИИ понимать контекст организации 1:07:54

Проблему точности корпоративных ИИ-агентов детально разобрал Кен Вонг (Ken Wong), представив Genie 1 . Он продемонстрировал, что популярные ИИ-помощники часто галлюцинируют (например, выдумывают количество клиентов в отчете) или выдают устаревшие данные . Внутренние тесты Databricks показали, что обычные кодинг-агенты справляются со сложными бизнес-вопросами лишь в 50% случаев .

Главным барьером является отсутствие контекста. Попытки вручную прописать «семантический слой» (semantic layer) обречены на провал: невозможно задокументировать каждое изменение в маркетинговых лидах или полях Jira для каждой команды . Решением стала Genie Ontology — автоматический слой контекста, который обучается самостоятельно .

Механизм работы Genie Ontology включает несколько этапов:

Этот подход позволил повысить точность ответов на 30% при одновременном сокращении времени выполнения запроса вдвое .

🧪 Практическая магия: работа с онтологией в интерфейсе Genie 1 1:11:12

Элис Йорис (Elise Joris) продемонстрировала работу Genie 1 на примере подготовки отчета по OKR . В процессе выполнения задачи агент не просто пересказывает документы, а обращается к «живым» данным в Databricks и BigQuery через SQL, используя MCP (Model Context Protocol) для взаимодействия с внешними инструментами, такими как Jira .

Важнейшим элементом интерфейса стали цитаты (citations) . Пользователь может кликнуть на любое утверждение агента и увидеть конкретный «сниппет онтологии» (ontology snippet), на котором основан ответ . Система показывает:

Такая прозрачность позволяет верифицировать выводы ИИ, превращая его из «черного ящика» в надежного цифрового коллегу, способного не только отвечать на вопросы, но и автоматизировать рутинные процессы, такие как еженедельный мониторинг тикетов в Jira . Ранее в обсуждении затрагивались вопросы контроля безопасности через шлюзы, и Genie 1 полностью наследует эти настройки доступа .

🚀 LakeFlow: Единая магистраль для данных в эпоху ИИ 1:30:47

Развитие интеллектуальных агентов и «коворкеров», о которых ранее в обсуждении шла речь в контексте Genie, неизбежно упирается в проблему фундамента: ИИ настолько хорош, насколько хороши данные, на которых он обучается и работает. Магеш Багавати (Magesh Bagavathi) из PepsiCo подчеркнул, что их глобальная трансформация началась именно с объединения 60 разрозненных озер данных в один Lakehouse на базе Databricks . Для такой огромной корпорации, совершающей 1,4 миллиарда торговых транзакций («occasions») в день , управление этим потоком без единого стандарта превращается в кошмар для инженеров. Именно для решения этой «грязной середины» — процесса превращения сырых данных из тысяч источников в чистые инсайты — и была представлена платформа LakeFlow .

От «грязной середины» к открытым стандартам: Перезагрузка ETL 1:30:47

Билал Алам (Bilal Alam) из Databricks, вышедший на сцену в своем «счастливом» фиолетовом пиджаке , обозначил главную боль современных дата-инженеров: архитектуры превратились в хаос из логотипов, коробок и связей между ними . Сегодня 60% всех конвейеров (pipelines) в LakeFlow уже пишутся с помощью ИИ-агента Genie Code . Однако обилие инструментов мешает версионному контролю и масштабированию .

Основой LakeFlow стали декларативные конвейеры Apache Spark (Spark declarative pipelines) . Это открытый фреймворк, который позволяет:

Важнейшим обновлением стала интеграция режима реального времени непосредственно в декларативные конвейеры . Если раньше для сверхнизких задержек инженерам приходилось использовать Flink, то теперь LakeFlow обеспечивает миллисекундную обработку на базе открытого Spark . Это устраняет необходимость в поддержке сложной сторонней инфраструктуры и делает фундамент для ИИ-агентов по-настоящему надежным.

LakeFlow Designer и Connect: Укрощение «теневых» ИТ 1:35:40

Одной из скрытых угроз для крупных компаний остается «теневой дата-инжиниринг», когда аналитики создают собственные пайплайны на локальных компьютерах в проприетарных форматах . Чтобы вернуть этот процесс под контроль без потери гибкости, Databricks представили LakeFlow Designer — визуальный инструмент подготовки данных без написания кода (no-code), который теперь стал общедоступным (GA) .

Главное отличие Designer от старых ETL-конструкторов заключается в том, что он не создает закрытых форматов . «Под капотом» он генерирует всё те же открытые декларативные конвейеры Spark . Это позволяет профессиональным инженерам легко подхватывать работу аналитиков, обеспечивая прозрачность и управляемость.

Параллельно с этим решается вопрос доставки данных извне. Система LakeFlow Connect теперь включает более 100 коннекторов к популярным источникам, таким как Salesforce, NetSuite и различным SQL-базам . Сообщество также получило возможность создавать собственные открытые коннекторы . Все они работают как стандартные задачи в экосистеме Databricks, что позволяет автоматически отслеживать происхождение данных (lineage) и применять к ним единые правила безопасности .

Zerobus и оркестрация: Масштабы в триллионы строк 1:37:09

Для работы с высоконагруженными потоками телеметрии инженеры десятилетиями использовали Kafka, которая крайне сложна в обслуживании . Ответом на этот вызов стал Zerobus Ingest — полностью управляемый бессерверный сервис, на 100% совместимый с протоколом Kafka . Он позволяет направлять потоки данных напрямую в Lakehouse со скоростью до 12 ГБ в секунду, избегая проблемы «миллионов мелких файлов», которая часто тормозит аналитические системы .

Финальным элементом стека стала обновленная система оркестрации — LakeFlow Jobs . В отличие от классического Airflow, который часто требует ручного управления инфраструктурой и страдает от уязвимостей в старых дистрибутивах , Jobs предлагает:

Масштабы платформы впечатляют: декларативные конвейеры Spark уже обрабатывают 200 триллионов строк данных ежедневно . LakeFlow Jobs ежемесячно запускает 1,7 миллиарда задач , а половина клиентов компании уже перешла на бессерверные вычисления, отказавшись от ручной настройки кластеров . Билал Алам подытожил, что упрощение создания пайплайнов — это лишь полдела, ведь 50% времени команд всё ещё уходит на их эксплуатацию и поддержку , что требует перехода к принципиально новым методам управления операциями.

🐘 Lakebase: Переосмысление Postgres для эпохи ИИ-агентов 2:09:02

После презентации движка Raiden (который, как в шутку признался Али Годси [Ali Ghodsi], расшифровывается как «Reynold’s Dream Engine» ), глава Databricks передал слово Никите Шамгунову [Nikita Shamgunov]. Никита, в прошлом CEO MemSQL и Neon, теперь возглавляет направление транзакционных баз данных в Databricks . Его выступление началось с амбициозного прогноза: в 2026 году благодаря ИИ будет создано больше программного обеспечения, чем за всю предыдущую историю человечества .

Однако каждому приложению и каждому автономному агенту по-прежнему нужна база данных. Никита сформулировал три требования к СУБД нового поколения: она должна быть привычной (familiar), гибкой (nimble) и критически важной (mission-critical) . В качестве фундамента был выбран Postgres — самая продвинутая open-source база данных с огромной экосистемой расширений . Главная проблема Postgres заключается в его монолитности, где вычисления и хранение жестко связаны .

Архитектура Lakebase: серверный Postgres в «озере» данных 2:12:12

Чтобы сделать Postgres по-настоящему облачным, команда полностью переработала уровень хранения, отделив его от вычислительных мощностей и переместив в Lakehouse . Хранилище в «озере» дешево и масштабируемо, но оно медленное и транзакционно непоследовательное . Для решения этой проблемы в Lakebase были внедрены два инновационных сервиса:

Результатом стал Lakebase — полностью управляемый серверный Postgres, работающий напрямую на «озере» данных . Система позволяет запускать инстанс менее чем за 500 миллисекунд и автоматически масштабируется до нуля, когда не используется, что радикально снижает совокупную стоимость владения (TCO) .

Для мира ИИ-агентов Никита Шамгунов [Nikita Shamgunov] выделил два ключевых паттерна:

  1. Ветвление (Branching): создание копии базы данных за 500 мс для нужд разработки или тестирования .
  2. Снапшоты и мгновенный откат: агент может изменить схему или данные, и если результат не устраивает пользователя, систему можно мгновенно вернуть к предыдущему состоянию одним кликом или через API .

Производительность и кросс-облачное аварийное восстановление 2:17:32

Вопрос производительности был закрыт демонстрацией бенчмарка Trock. В то время как популярные облачные вендоры «упираются в потолок» на отметках 130 000 и 350 000 операций в секунду , Lakebase демонстрирует линейное масштабирование. Система способна поддерживать задержку менее 10 миллисекунд на транзакцию при нагрузке более 600 000 операций в секунду .

Однако настоящим прорывом стало решение для обеспечения непрерывности бизнеса. Никита представил первое в индустрии полностью управляемое кросс-облачное аварийное восстановление (Cross-Cloud Disaster Recovery) .

На текущий момент Lakebase уже используют более 3500 корпоративных клиентов .

Кейс Mastercard: ИИ-советники и строгая изоляция данных 2:18:38

Для обсуждения практического применения Lakebase на сцену вышла Фед Коэн Фройе [Fed Cohen Freue], исполнительный вице-президент Mastercard . Компания обрабатывает более 150 миллиардов транзакций в год в 200 странах . По словам Фед, Lakebase помог Mastercard создать общую среду, где агенты могут рассуждать в реальном времени, имея общий контекст, но сохраняя строгую изоляцию .

В марте 2026 года Mastercard анонсировала «Virtual C-Suite» — набор ИИ-агентов для малого бизнеса . Первым стал «Виртуальный финансовый директор» (Virtual CFO), который помогает предпринимателям управлять денежными потоками, прогнозировать выручку и принимать решения о оборотном капитале .

Ключевые аспекты внедрения:

В завершение главы Патрик Венделл [Patrick Wendell] пригласил на сцену Грега Брокмана [Greg Brockman], президента OpenAI . Брокман отметил, что производство моделей превратилось в отлаженный «маховик» , и теперь критически важно интегрировать эти модели в рабочие процессы организаций. По его мнению, экспоненциальный рост возможностей ИИ не остановится, и текущее поколение моделей уже способно выполнять реальную работу, используя инструменты и контекст компании .

🤝 Синергия с OpenAI и технологический прорыв LTAP: смерть ETL-конвейеров 2:31:02

Партнёрство с OpenAI: от инструментов разработки до открытого кода 2:31:14

В рамках обсуждения будущего ИИ Али Годси пригласил на сцену Грега Брокмана, президента и сооснователя OpenAI. Разговор начался с признания тектонического сдвига в производительности: если раньше модели автоматизировали около 20% рутинной работы, то теперь этот показатель стремится к 80% . Брокман подчеркнул, что миссия OpenAI заключается в том, чтобы сделать передовые модели максимально доступными и безопасными для мира, поддерживая при этом высокий темп релизов .

Особое внимание было уделено роли данных в развитии самих продуктов OpenAI. Грег отметил, что данные — это «базовый ингредиент» или «мука в основе торта» при создании моделей . OpenAI активно использует платформу Databricks для анализа того, как пользователи взаимодействуют с ChatGPT, что позволяет выявлять удивительные сценарии использования — от расшифровки сложных медицинских отчётов до агентских систем, решающих задачи автономно . Инфраструктура Databricks помогает OpenAI справляться с колоссальными нагрузками, обеспечивая масштабируемость и надежность, которые Грег назвал приоритетом номер один .

Важной вехой сотрудничества стало развитие Codex — инструмента, который, по словам Брокмана, меняет само ощущение от работы с компьютером . Патрик Венделл подтвердил, что в самой Databricks Codex стал стандартом: инженеры компании видят огромный прирост продуктивности благодаря быстрым циклам обновления ПО и моделей . Ключевые тезисы по Codex:

Завершая блок, Грег Брокман поделился своим видением AGI. Он предложил рассматривать его не как конкретный момент времени, а как спектр возможностей . По его мнению, главной задачей остается сохранение человека в центре системы, чтобы ИИ был лишь инструментом, ускоряющим достижение целей, поставленных людьми .

Технология LTAP: революция в хранении и анализе данных 2:42:50

После обсуждения ИИ-моделей Рейнольд Син вернулся к фундаментальной проблеме индустрии данных — разделению на транзакционные (OLTP) и аналитические (OLAP) системы. Традиционно для синхронизации этих миров использовались CDC-конвейеры (Change Data Capture), которые Син иронично расшифровал как «Continuous Data Corruption» (постоянное повреждение данных) . Эти пайплайны хрупки, сложны в поддержке и часто становятся причиной ночных вызовов дата-инженеров .

Решением проблемы стала новая технология — LTAP (Lake Transactional Analytical Processing) . Это развитие идеи HTAP, которая ранее считалась «святым граалем», но провалилась из-за проприетарности и компромиссов в производительности .

Архитектурный прорыв LTAP заключается в следующем:

  1. Транскодирование на лету: Хранилища Databricks (safekeepers и page servers) часто ограничены по вводу-выводу (IO-bound), но имеют избыток вычислительной мощности .
  2. Конвертация форматов: В момент записи транзакционных данных (строковый формат) свободные циклы CPU используются для их мгновенного преобразования в колоночный формат (Parquet/Delta/Iceberg) .
  3. Эффективное сжатие: Колоночный формат сжимает данные в соотношении от 10:1 до 100:1, что снижает нагрузку на сеть и диски, фактически улучшая общую производительность системы вместо её замедления .

Теперь данные в Lakebase (облачном Postgres на «озере», о котором говорилось ранее) автоматически становятся доступными для аналитического движка без каких-либо ETL-процессов . Это позволяет выполнять аналитические запросы напрямую по самым свежим транзакционным данным . Для поддержки сообщества Databricks анонсировала open-source библиотеку для конвертации данных Postgres напрямую в Parquet .

Демонстрация LTAP: от минут к миллисекундам 2:50:08

Холли продемонстрировала практическое применение LTAP на примере банковской системы, обрабатывающей миллиарды транзакций. Задача заключалась в том, чтобы агент мог в реальном времени выявить VIP-клиента прямо в момент его визита в банк и подобрать ему советника .

В ходе демо были сравнены три подхода:

  1. Прямой запрос к OLTP: Попытка выполнить сложную аналитику на транзакционной базе привела к выполнению запроса более чем за 1 минуту и обрушила показатели TPS (транзакций в секунду), создав угрозу остановки бизнеса .
  2. Использование CDC: Традиционный пайплайн показал задержку данных (staleness) в 25 секунд и потребовал 13 секунд на выполнение самого запроса . В реальном времени это означает, что клиент уйдет раньше, чем система его распознает.
  3. Метод LTAP: Благодаря тому, что таблицы Lakebase видны в Unity Catalog как нативные Delta-таблицы , запрос через «Real-time Warehouse» выполнился за миллисекунды .

При использовании LTAP данные остаются абсолютно актуальными (нулевая задержка), а аналитическая нагрузка никак не влияет на стабильность основной базы данных . Это объединяет разрозненные «континенты» инфраструктуры в единое пространство, доступное для любого количества ИИ-агентов без дополнительных затрат на обслуживание .

🏁 Финал унификации: от разрозненных «островов» данных к единой Пангее 2:56:12

Завершая презентацию, Али Годси (Ali Ghodsi) подвел итог глобальной трансформации платформы, которая фактически стирает последние границы между миром операционных баз данных и аналитики . Главным итогом представленных технологических обновлений стало значительное снижение затрат на вычислительные мощности . По словам главы Databricks, новая архитектура обходится дешевле не только в эксплуатации, но и в обслуживании, поскольку компаниям больше не нужно управлять сложным стеком промежуточных инструментов для синхронизации данных .

Экономика единого источника истины 2:56:38

Отказ от фрагментированной ИТ-инфраструктуры позволяет компаниям перейти к концепции «единой системы записи» (single system of record) . В этой парадигме одни и те же данные используются одновременно для операционных и аналитических систем, при этом инженерам больше не нужно идти на компромиссы в вопросах производительности .

Али Годси особо подчеркнул автоматизацию этого процесса:

Этот подход Али сравнил с созданием «цифровой Пангеи» — единого суперконтинента данных, где ранее разделенные «острова» инфраструктуры сливаются в общую экосистему . В основе этого объединения лежат открытые форматы Iceberg и Delta Lake, что позволяет пользователям буквально «подключаться к крану» с данными озера (lake tap) для любых нужд: от классического транзакционного процессинга до продвинутой обработки в реальном времени и Data Science .

Эволюционный путь: от Spark до архитектуры LTAP 2:57:34

Резюмируя путь компании, Али Годси напомнил, что Databricks последовательно шла к этой полной унификации на протяжении нескольких лет . Процесс начался с объединения дата-инженерии и науки о данных с помощью Apache Spark . Следующим шагом стало создание концепции Lakehouse, которая интегрировала в единое пространство задачи хранения и обработки данных .

Сегодня этот путь завершается появлением LTAP (Long-Term Analytical and Processing) — технологии, которая объединяет аналитику с транзакционными базами данных класса OLTP . Это стало возможным благодаря внедрению высокоскоростного движка Raiden (известного также как Lakehouse RT), который окончательно замыкает цикл обработки данных внутри одной платформы . Таким образом, современная архитектура ПО превращается в «Agentic System of Record», где данные не просто хранятся, а активно используются ИИ-агентами для принятия решений .

Платформа для эпохи ИИ-агентов 2:58:00

Главный вызов современности, по мнению Годси, заключается в том, что существующим ИИ-агентам критически не хватает контекста . Чтобы решить эту проблему, Databricks представила комплексную «Агентную основу данных» (Agentic Data Foundation) . Она включает в себя все ключевые анонсы первого дня саммита: от инструментов LakeFlow для бесшовной интеграции данных до кросс-облачного аварийного восстановления в Lakebase .

Для обеспечения агентов смысловым контекстом компания выделила три ключевых уровня:

  1. Слой контекста: Здесь ключевую роль играет Genie Ontology — граф знаний, структурирующий данные организации .
  2. Слой управления: Unity AI Gateway обеспечивает контроль расходов и безопасность всех моделей и агентов в одном месте .
  3. Слой разработки: Фреймворк Agentic Dev включает три основных направления — Genie One, Genie Code для написания программ и специализированных Genie-агентов для бизнес-задач .

В завершение сессии Али упомянул новые прикладные решения, такие как Lakewatch для кибербезопасности и Customer Lake для управления клиентскими данными (CDP), подчеркнув, что Databricks выходит на рынок готовых бизнес-приложений . Финальным аккордом стало приглашение на второй день саммита, где Матей Захария (Matei Zaharia) подробно расскажет о проекте Omnient — еще одной важной части этой масштабной экосистемы .

💬 Цитаты

«Мир создал искусственный мозг, а затем запер его в комнате... Настоящий прорыв — это то, что вы построите с его помощью, дав ему контекст ваших данных.»

Али Годси 0:08

«Сегодня у передовых моделей жизненный цикл — один месяц. Нам нужна гибкость, чтобы выбирать любую из них без привязки к вендору.»

Али Годси 33:03

«Мы можем уверенно сказать: в следующем году будет создано больше программного обеспечения, чем за всю историю человечества.»

Никита Шамгунов 2:09:42

«Мы больше не имеем разделенного представления о мире между операциями и аналитикой. Нам больше не нужно выбирать.»

«Мы смогли объединить все эти разные острова, устранив перемещение данных в одну большую Пангею.»

👥 Спикеры
📖 Термины
Цифровая Пангея
Концепция Databricks по созданию единого, унифицированного пространства данных, где отсутствуют разрывы между транзакционными и аналитическими системами.
Genie Ontology
Технология автоматического создания семантической карты знаний организации для улучшения понимания контекста ИИ-агентами.
LTAP
Технология, позволяющая преобразовывать строковые (транзакционные) данные в колоночные форматы на лету, минуя тяжелые ETL-процессы.
Технологии и IT Databricks Али Годси ИИ-агенты Unity Catalog Genie Ontology