# Дата-революция Databricks: как ИИ-агенты объединяют корпоративные данные

Источник: https://www.youtube.com/watch?v=Qux8E-L1mk8
Канал: Databricks
Опубликовано: 16.06.2026

---

Мир создал искусственный мозг, но до сих пор держал его в запертой комнате без доступа к реальному бизнесу. Databricks объявляет об окончании эпохи разрозненных данных, превращая корпоративные хранилища в единую «цифровую Пангею», где ИИ-агенты наконец получают контекст, необходимый для создания программного обеспечения в масштабах, немыслимых ранее.

## 🌐 Новая эра ИИ: От абстрактного интеллекта к бизнес-контексту
[[JUMP:0:08]]

Конференция Data + AI Summit 2026 открылась масштабным заявлением о том, что эпоха «изолированного ИИ» подошла к концу. Али Годси (Ali Ghodsi) подчеркнул, что мир создал «искусственный мозг», но запер его в комнате, отрезав от реальных бизнес-операций [0:08]. Сегодняшняя задача индустрии — дать этому интеллекту контекст, сохранив при этом контроль и безопасность [0:46]. Масштаб события подтверждает значимость этой цели: на саммит зарегистрировалось более 100 000 человек из 174 стран [2:26], а в Сан-Франциско лично присутствуют более 31 000 участников [2:51], что делает его крупнейшим мероприятием в сфере данных и ИИ в мире [3:06].

### Искусственный интеллект уже здесь: Почему академический AGI не работает в офисе?
[[JUMP:7:53]]

Али Годси начал своё выступление с провокационного вопроса к аудитории: наступил ли уже «сильный искусственный интеллект» (AGI)? [7:53]. Несмотря на то, что лишь около 5% присутствующих подняли руки [8:18], Годси утверждает: технически AGI уже с нами. В качестве доказательства он привёл пример сложнейшей математической задачи по вычислению 12-мерного спин-кобордизма [8:32], которую современные фронтирные модели решают с лёгкостью, в то время как для человека она практически непостижима [9:09]. 

Согласно бенчмарку «Humanity’s Last Exam» (Последний экзамен человечества), состоящему из 25 500 вопросов высшего уровня сложности, современные ИИ-агенты уже успешно справляются с половиной заданий [9:21]. По определению, принятому в 2009 году в лаборатории AMP Lab при Калифорнийском университете в Беркли (где зародились проекты Spark и Databricks), мы уже превзошли планку AGI «на несколько световых лет» [10:01].

Однако Годси отмечает парадокс: почему же тогда в компаниях до сих пор нет сотен агентов, автономно ведущих переговоры и предлагающих бизнес-стратегии? [10:39]. Проблема не в недостатке интеллекта, а в отсутствии контекста [11:18]. Чтобы ИИ стал полезен в корпоративной среде, ему не нужно решать топологические задачи — ему нужен доступ к заметкам встреч, данным из Salesforce, цепочкам поставок и специфическим процессам каждой организации [11:58]. Без этих «реальных данных» самый мощный интеллект остаётся лишь продвинутым чат-ботом.

### Проблема контекста и четыре барьера на пути к корпоративному ИИ
[[JUMP:12:26]]

Переход от общего интеллекта к корпоративному ИИ-агенту требует решения четырёх фундаментальных проблем [12:26]:

1.  **Контекст (Context):** Необходимо собрать все данные организации — от транскриптов совещаний до разрозненных хранилищ — и сделать их пригодными для ИИ [12:40].
2.  **Контроль и безопасность (Control):** ИИ должен строго следовать политикам безопасности компании [13:37]. Годси напомнил, что при выпуске модели Claude более 10% её навыков были потенциально вредоносными, поэтому аудит действий агентов критически важен [13:24].
3.  **Стоимость (Cost):** Бесконтрольное использование ИИ ведет к финансовому краху. Али процитировал CEO Uber, который сообщил, что компания потратила годовой бюджет на ИИ всего за один квартал [14:03]. 
4.  **Свобода выбора (Choice):** Избежание привязки к конкретному поставщику (vendor lock-in) [14:43]. Учитывая, что многим компаниям в зале более 50 лет, их программный стек перегружен старым ПО, которое невозможно «вырвать» [15:09]. Дата-платформа будущего обязана быть открытой.

Для обеспечения этого выбора Databricks продолжает развивать открытую экосистему. Али упомянул платформу LakeFlow для интеграции данных (подробнее о которой речь пойдет в главе 4) [16:27], а также развитие открытых стандартов, таких как Spark Real-time Mode (RTM), позволяющий достичь задержек в 10 миллисекунд [17:59]. Также был отмечен успех Merck в создании модели TEDDY для разработки лекарств на базе трансформеров [7:02], что демонстрирует потенциал ИИ при наличии качественных данных.

### Конец войны форматов: Полная унификация Delta Lake и Apache Iceberg
[[JUMP:19:28]]

Одним из самых значимых анонсов главы стало окончательное решение спора между сторонниками форматов хранения Delta Lake и Apache Iceberg. Али Годси пригласил на сцену Райана Блу (Ryan Blue), создателя Apache Iceberg, чья компания была приобретена Databricks годом ранее [19:28].

Блу подтвердил свой старый тезис: «Пользователям не должно быть дела до форматов данных» [20:01]. Идея Open Lakehouse заключается в том, чтобы использовать любой инструмент для любой задачи без необходимости копирования данных [20:14]. 

Основные этапы унификации:

*   **Iceberg V3 (уже GA):** Реализован единый уровень данных. Теперь нет необходимости перезаписывать файлы, чтобы они были доступны одновременно и как таблицы Delta, и как таблицы Iceberg [20:56]. Данные на диске теперь физически идентичны [22:02].
*   **Iceberg V4 / Delta 5 (в разработке):** Ожидается в конце 2026 года [21:35]. Этот релиз представит унифицированный слой метаданных, что полностью сотрет различия между форматами на уровне управления [21:10].

Эта унификация позволяет компаниям строить аналитику, не опасаясь «застрять» в проприетарных форматах. Годси подчеркнул, что потребление Lakehouse-хранилища выросло в два раза за последний год [23:46]. В рамках этой открытой стратегии компания также развивает проект Raiden — сверхбыстрый движок для аналитики в реальном времени (подробнее в главе 5) [23:58], и Lakebase — решение, позволяющее использовать Postgres напрямую поверх «озера» данных (подробнее в главе 6) [24:50]. Главная цель — сделать данные в открытых форматах доступными для любого типа нагрузки: от транзакций до сложного ИИ.

## 🛡️ Единый контроль в эпоху ИИ-хаоса: Unity AI Gateway и управление затратами

[[JUMP:25:17]]

### От структурированных таблиц к ИИ-активам: эволюция Unity Catalog
[[JUMP:28:43]]

Прежде чем переходить к интеллектуальным агентам, Али Годси (Ali Ghodsi) подчеркивает: фундамент для ИИ начинается с правильного слоя данных [28:30]. Ранее в обсуждении упоминались возможности Lakebase для транзакционной обработки [28:20] и интеграция через LakeFlow [28:16], но критическим элементом остается контроль. Проект Unity Catalog, запущенный несколько лет назад, изначально создавался для управления доступом к структурированным таблицам, скрывая, например, колонки с зарплатами сотрудников [29:08]. Однако само название «Unity» (Единство) подразумевало амбициозную цель — объединить управление всеми активами предприятия: от PDF-файлов и моделей до 50 других типов данных, добавленных за последние годы [29:21].

Сегодня концепция расширяется до «демократизации данных» через открытость. Али Годси (Ali Ghodsi) отмечает, что Unity Catalog всегда был бесплатным и теперь полностью открыт (open source) [30:12]. Важным шагом стало объявление проекта Open Sharing [30:53]. В отличие от закрытых экосистем конкурентов, требующих покупки софта обоими участниками обмена, Open Sharing позволяет делиться не только данными в форматах Delta или Iceberg, но и ИИ-активами: агентами, навыками и моделями, в том числе развернутыми on-premise [31:06]. Это создает базу для управления тем, что Годси называет «настоящим болотом» современных корпоративных ИИ-разработок [32:12].

### Кризис управления: «токен-максинг» и чехарда моделей
[[JUMP:30:53]]

Ситуация в современных организациях становится неуправляемой: разработчики используют Llama Index и LangChain, SaaS-провайдеры навязывают своих агентов, а сотрудники создают собственные MCP-серверы и файлы навыков [31:31]. Али Годси (Ali Ghodsi) выделяет три фундаментальные проблемы, с которыми сталкивается бизнес в 2026 году:

1.  **Бесконтрольные расходы.** Затраты на ИИ взлетают до небес (skyrocketing), и ни у кого нет видимости, какой именно агент или модель «сжигает» бюджет [32:25]. Происходит так называемый «токен-максинг» (token maxing), при котором невозможно установить лимиты или ограничения скорости (rate limiting) для всей организации целиком [32:38].
2.  **Отсутствие надзора.** Компании не могут гарантировать, что агенты имеют доступ только к разрешенным данным, не могут проводить их аудит, устанавливать фильтры (guardrails) на входные и выходные данные или управлять их идентификацией — от чьего имени действует агент? [32:50].
3.  **Отсутствие выбора (vendor lock-in).** Жизненный цикл передовых моделей сегодня составляет всего месяц [33:03]. В ноябре лидерство было у Gemini, в феврале — у Claude Opus, затем у GPT-5.5, а на прошлой неделе все обсуждали Mythos или Fable [33:16]. Организациям нужна гибкость, чтобы переключаться между ними без переписывания всей инфраструктуры [33:43].

### Unity AI Gateway: «единое стекло» для ИИ-инфраструктуры
[[JUMP:33:56]]

Решением этих проблем становится Unity AI Gateway — централизованная точка входа для всех агентов и ИИ-трафика компании [33:56]. Будучи частью открытых проектов Unity Catalog и MLflow, шлюз позволяет управлять всеми затратами и политиками безопасности из единого интерфейса [34:21]. 

Уникальность предложения Databricks заключается в предоставлении емкостей (capacity) для сторонних моделей. Если компания зафиксировала контракт, скажем, на 100 000 долларов, она может тратить эти средства напрямую на токены OpenAI, Anthropic или Gemini через шлюз, работая в любом облаке — Azure, GCP или AWS [34:48]. 

Ключевые возможности Unity AI Gateway включают:

*   **Полная прозрачность (Observability):** детальные дашборды показывают, как именно тратятся деньги внутри организации [35:12].
*   **Бюджетирование:** администраторы могут устанавливать лимиты на уровне групп, подгрупп и даже отдельных сотрудников [35:12]. При исчерпании лимита система может отправить уведомление или автоматически остановить работу агента [35:25].
*   **Безопасность и аудит:** шлюз принудительно исполняет правила комплаенса и управляет идентификацией для моделей и агентов [35:37].
*   **Унификация инструментов:** в Gateway можно регистрировать любые MCP-серверы (Model Context Protocol) от любых вендоров [36:03]. Это позволяет пройти аутентификацию один раз и использовать её для всех инструментов в организации [36:16].

### Подготовка контекста: от управления к интеллектуальным ответам
[[JUMP:36:41]]

Завершая обсуждение контроля, Али Годси (Ali Ghodsi) переходит к следующему этапу — слою контекста. Проблема современных ИИ не в отсутствии интеллекта, а в нехватке контекста [36:41]. Традиционные агенты тратят до 15 минут и огромные суммы денег на поиск ответа, блуждая по документам через MCP-серверы [37:59]. Чтобы исправить это, Databricks внедряет технологии, которые будут подробно рассмотрены в следующих главах: Genie Ontology [38:51], алгоритм OntoRank [39:45] и специализированные агенты, такие как Genie Zero Ops для автоматизации дата-инженерии [46:39].

Эти инструменты призваны превратить разрозненные данные в связный граф знаний, превращая «случайные блуждания» агентов в целенаправленную работу с данными [38:36]. В конечном итоге, по словам Годси, это ведет к фундаментальной трансформации софта и появлению новых систем рекордов, ориентированных на агентов [50:12].

## 🤖 Эпоха Agentic System of Record: от разрозненных SaaS к единой экосистеме данных
[[JUMP:50:25]]

Али Годси (Ali Ghodsi) открывает новую веху в архитектуре корпоративного ПО, констатируя кризис текущей модели SaaS [50:25]. Последние два года каждый вендор стремился предоставить собственного ИИ-агента для доступа к своим данным, что привело к фрагментации: вопросы пользователей редко ограничиваются одной системой, а «договориться» между собой агенты разных компаний зачастую не могут [50:51]. В результате корпоративная среда превращается в запутанный лабиринт [51:16].

Решением становится переход к **Agentic System of Record** — новой архитектуре, где агенты имеют прямой, быстрый и безопасный доступ к единому слою данных в открытом формате [51:30]. Основные принципы этой системы:

*   **Бесшовность:** агентам не нужно пробираться через цепочки других посредников или рисковать стабильностью производственных баз данных [51:42].
*   **Контекст:** система предоставляет ИИ-агентам корпоративный контекст, охватывающий всю организацию, а не отдельные документы [52:22].
*   **Управление:** единый уровень управления (governance) и контроля затрат [52:10].

По мнению Али Годси, именно платформа данных и ИИ становится новой «системой записи» (System of Record) будущего [52:35]. Для реализации этой концепции Databricks активно развивает **Databricks Apps** — инструмент для демократизации доступа к данным, позволяющий создавать кастомные приложения [53:13]. На саммите был анонсирован маркетплейс, где компании могут не только находить, но и покупать агентские приложения у сторонних вендоров, используя встроенные механизмы транзакций [53:38].

### 🛡️ Lakewatch и Customer Lake: специализированные ИИ-агенты для безопасности и маркетинга
[[JUMP:54:04]]

Databricks расширяет свою экосистему, запуская вертикальные решения, построенные на принципах Agentic System of Record. Первым критическим направлением стала кибербезопасность. Али Годси анонсировал **Lakewatch** — «агентскую» SIEM-систему (Security Information and Event Management), работающую на базе Lakehouse [54:04]. Традиционные SIEM стали слишком дорогими из-за взрывного роста объемов данных, что вынуждает компании фильтровать логи и пропускать важные сигналы [54:31]. В условиях, когда лучшие хакеры мира — это автоматизированные системы вроде «Expo» [54:57], компаниям необходимо хранить все данные в дешевом открытом формате.

Ключевым событием в этом направлении стало поглощение компании **Panther Labs** [56:01]. Али Годси отметил прозорливость основателя Panther Джека Нальери (Jack Naglieri), который ещё пять лет назад сделал ставку на «питонический» (Pythonic) подход к безопасности [56:27]. Поскольку современные LLM лучше всего взаимодействуют именно с кодом на Python, это приобретение позволяет Lakewatch использовать сотни готовых коннекторов и автоматизировать работу SOC (Security Operations Center) [56:40]. Агенты Lakewatch способны самостоятельно приоритизировать алерты и проводить «охоту за угрозами» (threat hunting) при появлении новых уязвимостей нулевого дня [55:48].

Вторым важным анонсом стал **Customer Lake** — агентская CDP (платформа клиентских данных) [57:08]. Она включает два специализированных агента:

1.  **Profile Agent:** использует LLM для максимально точной дедупликации и идентификации клиентов, превосходя классические алгоритмические методы [57:36].
2.  **Campaign Agent:** реализует концепцию «бесконечных кампаний» (infinity campaigns) [58:02]. Вместо того чтобы делить аудиторию на 100 сегментов, малые дистиллированные модели позволяют персонализировать каждое взаимодействие один-на-один в режиме реального времени [58:16].

### 🧠 Genie Ontology и OntoRank: как научить ИИ понимать контекст организации
[[JUMP:1:07:54]]

Проблему точности корпоративных ИИ-агентов детально разобрал Кен Вонг (Ken Wong), представив **Genie 1** [1:00:48]. Он продемонстрировал, что популярные ИИ-помощники часто галлюцинируют (например, выдумывают количество клиентов в отчете) или выдают устаревшие данные [1:03:36]. Внутренние тесты Databricks показали, что обычные кодинг-агенты справляются со сложными бизнес-вопросами лишь в 50% случаев [1:05:48].

Главным барьером является отсутствие контекста. Попытки вручную прописать «семантический слой» (semantic layer) обречены на провал: невозможно задокументировать каждое изменение в маркетинговых лидах или полях Jira для каждой команды [1:07:16]. Решением стала **Genie Ontology** — автоматический слой контекста, который обучается самостоятельно [1:07:54].

Механизм работы Genie Ontology включает несколько этапов:

*   **Экстракция:** система анализирует пайплайны, запросы, дашборды и метаданные в Unity Catalog [1:08:33].
*   **Алгоритм OntoRank:** это аналог PageRank для знаний, который определяет наиболее авторитетные фрагменты кода, выражений и взаимосвязей [1:09:01].
*   **Инъекция контекста:** когда пользователь задает вопрос, Genie находит проверенные «сниппеты» знаний и встраивает их в цикл рассуждений агента [1:09:27].

Этот подход позволил повысить точность ответов на 30% при одновременном сокращении времени выполнения запроса вдвое [1:10:19].

### 🧪 Практическая магия: работа с онтологией в интерфейсе Genie 1
[[JUMP:1:11:12]]

Элис Йорис (Elise Joris) продемонстрировала работу Genie 1 на примере подготовки отчета по OKR [1:11:12]. В процессе выполнения задачи агент не просто пересказывает документы, а обращается к «живым» данным в Databricks и BigQuery через SQL, используя **MCP (Model Context Protocol)** для взаимодействия с внешними инструментами, такими как Jira [1:12:48].

Важнейшим элементом интерфейса стали **цитаты (citations)** [1:14:04]. Пользователь может кликнуть на любое утверждение агента и увидеть конкретный «сниппет онтологии» (ontology snippet), на котором основан ответ [1:14:17]. Система показывает:

*   Логику расчета (например, определение «активной сессии») [1:14:42].
*   Источник данных (например, дашборд мобильных KPI) [1:14:56].
*   **Authority Score:** показатель доверия к этому фрагменту знаний, основанный на том, как часто этот актив используется экспертами внутри компании [1:15:09].

Такая прозрачность позволяет верифицировать выводы ИИ, превращая его из «черного ящика» в надежного цифрового коллегу, способного не только отвечать на вопросы, но и автоматизировать рутинные процессы, такие как еженедельный мониторинг тикетов в Jira [1:15:24]. Ранее в обсуждении затрагивались вопросы контроля безопасности через шлюзы, и Genie 1 полностью наследует эти настройки доступа [1:12:34].

## 🚀 LakeFlow: Единая магистраль для данных в эпоху ИИ
[[JUMP:1:30:47]]

Развитие интеллектуальных агентов и «коворкеров», о которых ранее в обсуждении шла речь в контексте Genie, неизбежно упирается в проблему фундамента: ИИ настолько хорош, насколько хороши данные, на которых он обучается и работает. Магеш Багавати (Magesh Bagavathi) из PepsiCo подчеркнул, что их глобальная трансформация началась именно с объединения 60 разрозненных озер данных в один Lakehouse на базе Databricks [1:26:10]. Для такой огромной корпорации, совершающей 1,4 миллиарда торговых транзакций («occasions») в день [1:25:30], управление этим потоком без единого стандарта превращается в кошмар для инженеров. Именно для решения этой «грязной середины» — процесса превращения сырых данных из тысяч источников в чистые инсайты — и была представлена платформа LakeFlow [1:31:56].

### От «грязной середины» к открытым стандартам: Перезагрузка ETL
[[JUMP:1:30:47]]

Билал Алам (Bilal Alam) из Databricks, вышедший на сцену в своем «счастливом» фиолетовом пиджаке [1:31:02], обозначил главную боль современных дата-инженеров: архитектуры превратились в хаос из логотипов, коробок и связей между ними [1:32:09]. Сегодня 60% всех конвейеров (pipelines) в LakeFlow уже пишутся с помощью ИИ-агента Genie Code [1:32:27]. Однако обилие инструментов мешает версионному контролю и масштабированию [1:32:37].

Основой LakeFlow стали декларативные конвейеры Apache Spark (Spark declarative pipelines) [1:34:33]. Это открытый фреймворк, который позволяет:

*   Унифицировать пакетную (batch) и потоковую (streaming) обработку в одном коде [1:34:59].
*   Использовать SQL и Python одновременно, не выбирая между ними [1:34:59].
*   Запускать задачи где угодно, вплоть до локального ноутбука [1:34:46].

Важнейшим обновлением стала интеграция режима реального времени непосредственно в декларативные конвейеры [1:35:12]. Если раньше для сверхнизких задержек инженерам приходилось использовать Flink, то теперь LakeFlow обеспечивает миллисекундную обработку на базе открытого Spark [1:35:26]. Это устраняет необходимость в поддержке сложной сторонней инфраструктуры и делает фундамент для ИИ-агентов по-настоящему надежным.

### LakeFlow Designer и Connect: Укрощение «теневых» ИТ
[[JUMP:1:35:40]]

Одной из скрытых угроз для крупных компаний остается «теневой дата-инжиниринг», когда аналитики создают собственные пайплайны на локальных компьютерах в проприетарных форматах [1:35:40]. Чтобы вернуть этот процесс под контроль без потери гибкости, Databricks представили LakeFlow Designer — визуальный инструмент подготовки данных без написания кода (no-code), который теперь стал общедоступным (GA) [1:36:07].

Главное отличие Designer от старых ETL-конструкторов заключается в том, что он не создает закрытых форматов [1:36:12]. «Под капотом» он генерирует всё те же открытые декларативные конвейеры Spark [1:36:20]. Это позволяет профессиональным инженерам легко подхватывать работу аналитиков, обеспечивая прозрачность и управляемость.

Параллельно с этим решается вопрос доставки данных извне. Система LakeFlow Connect теперь включает более 100 коннекторов к популярным источникам, таким как Salesforce, NetSuite и различным SQL-базам [1:36:44]. Сообщество также получило возможность создавать собственные открытые коннекторы [1:36:57]. Все они работают как стандартные задачи в экосистеме Databricks, что позволяет автоматически отслеживать происхождение данных (lineage) и применять к ним единые правила безопасности [1:36:57].

### Zerobus и оркестрация: Масштабы в триллионы строк
[[JUMP:1:37:09]]

Для работы с высоконагруженными потоками телеметрии инженеры десятилетиями использовали Kafka, которая крайне сложна в обслуживании [1:37:09]. Ответом на этот вызов стал Zerobus Ingest — полностью управляемый бессерверный сервис, на 100% совместимый с протоколом Kafka [1:37:22]. Он позволяет направлять потоки данных напрямую в Lakehouse со скоростью до 12 ГБ в секунду, избегая проблемы «миллионов мелких файлов», которая часто тормозит аналитические системы [1:37:35].

Финальным элементом стека стала обновленная система оркестрации — LakeFlow Jobs [1:38:02]. В отличие от классического Airflow, который часто требует ручного управления инфраструктурой и страдает от уязвимостей в старых дистрибутивах [1:38:14], Jobs предлагает:

*   Полную поддержку рабочих процессов на «чистом» Python [1:38:02].
*   Бессерверную архитектуру (Zero Ops) [1:38:14].
*   Более 50 готовых интеграций для управления внешними системами, включая возможность оркестрации задач даже в Snowflake [1:38:40].

Масштабы платформы впечатляют: декларативные конвейеры Spark уже обрабатывают 200 триллионов строк данных ежедневно [1:39:06]. LakeFlow Jobs ежемесячно запускает 1,7 миллиарда задач [1:39:20], а половина клиентов компании уже перешла на бессерверные вычисления, отказавшись от ручной настройки кластеров [1:39:33]. Билал Алам подытожил, что упрощение создания пайплайнов — это лишь полдела, ведь 50% времени команд всё ещё уходит на их эксплуатацию и поддержку [1:40:13], что требует перехода к принципиально новым методам управления операциями.



## 🐘 Lakebase: Переосмысление Postgres для эпохи ИИ-агентов

[[JUMP:2:09:02]]

После презентации движка Raiden (который, как в шутку признался Али Годси [Ali Ghodsi], расшифровывается как «Reynold’s Dream Engine» [2:07:58]), глава Databricks передал слово Никите Шамгунову [Nikita Shamgunov]. Никита, в прошлом CEO MemSQL и Neon, теперь возглавляет направление транзакционных баз данных в Databricks [2:09:02]. Его выступление началось с амбициозного прогноза: в 2026 году благодаря ИИ будет создано больше программного обеспечения, чем за всю предыдущую историю человечества [2:09:42]. 

Однако каждому приложению и каждому автономному агенту по-прежнему нужна база данных. Никита сформулировал три требования к СУБД нового поколения: она должна быть привычной (familiar), гибкой (nimble) и критически важной (mission-critical) [2:11:03]. В качестве фундамента был выбран Postgres — самая продвинутая open-source база данных с огромной экосистемой расширений [2:11:16]. Главная проблема Postgres заключается в его монолитности, где вычисления и хранение жестко связаны [2:11:43]. 

### Архитектура Lakebase: серверный Postgres в «озере» данных

[[JUMP:2:12:12]]

Чтобы сделать Postgres по-настоящему облачным, команда полностью переработала уровень хранения, отделив его от вычислительных мощностей и переместив в Lakehouse [2:11:56]. Хранилище в «озере» дешево и масштабируемо, но оно медленное и транзакционно непоследовательное [2:12:12]. Для решения этой проблемы в Lakebase были внедрены два инновационных сервиса:

*   **Safekeepers:** реализуют протокол консенсуса Paxos, обеспечивая низкую задержку при записи и транзакционную целостность [2:12:35].
*   **Page Servers:** поставляют страницы данных для вычислений Postgres, гарантируя высокую скорость чтения [2:12:48].

Результатом стал Lakebase — полностью управляемый серверный Postgres, работающий напрямую на «озере» данных [2:12:53]. Система позволяет запускать инстанс менее чем за 500 миллисекунд и автоматически масштабируется до нуля, когда не используется, что радикально снижает совокупную стоимость владения (TCO) [2:13:16].

Для мира ИИ-агентов Никита Шамгунов [Nikita Shamgunov] выделил два ключевых паттерна:

1.  **Ветвление (Branching):** создание копии базы данных за 500 мс для нужд разработки или тестирования [2:13:47].
2.  **Снапшоты и мгновенный откат:** агент может изменить схему или данные, и если результат не устраивает пользователя, систему можно мгновенно вернуть к предыдущему состоянию одним кликом или через API [2:14:13].

### Производительность и кросс-облачное аварийное восстановление

[[JUMP:2:17:32]]

Вопрос производительности был закрыт демонстрацией бенчмарка Trock. В то время как популярные облачные вендоры «упираются в потолок» на отметках 130 000 и 350 000 операций в секунду [2:16:00], Lakebase демонстрирует линейное масштабирование. Система способна поддерживать задержку менее 10 миллисекунд на транзакцию при нагрузке более 600 000 операций в секунду [2:16:45]. 

Однако настоящим прорывом стало решение для обеспечения непрерывности бизнеса. Никита представил первое в индустрии полностью управляемое кросс-облачное аварийное восстановление (Cross-Cloud Disaster Recovery) [2:17:32]. 

*   Пользователь может развернуть основную базу Lakebase, например, в регионе AWS West [2:17:58].
*   Одновременно создается реплика в Azure East [2:18:05].
*   В случае масштабного сбоя на стороне AWS система мгновенно переключается на Azure, обеспечивая бесперебойную работу бизнеса [2:18:11].

На текущий момент Lakebase уже используют более 3500 корпоративных клиентов [2:18:26].

### Кейс Mastercard: ИИ-советники и строгая изоляция данных

[[JUMP:2:18:38]]

Для обсуждения практического применения Lakebase на сцену вышла Фед Коэн Фройе [Fed Cohen Freue], исполнительный вице-президент Mastercard [2:18:38]. Компания обрабатывает более 150 миллиардов транзакций в год в 200 странах [2:19:35]. По словам Фед, Lakebase помог Mastercard создать общую среду, где агенты могут рассуждать в реальном времени, имея общий контекст, но сохраняя строгую изоляцию [2:19:50].

В марте 2026 года Mastercard анонсировала «Virtual C-Suite» — набор ИИ-агентов для малого бизнеса [2:20:17]. Первым стал «Виртуальный финансовый директор» (Virtual CFO), который помогает предпринимателям управлять денежными потоками, прогнозировать выручку и принимать решения о оборотном капитале [2:20:42]. 

Ключевые аспекты внедрения:

*   **Мультитенантность:** Mastercard работает с тысячами банков-эмитентов на одной платформе. Изоляция данных здесь — не опция, а фундаментальное требование безопасности и соблюдения правил резидентности данных [2:21:48].
*   **Общий контекст:** Lakebase позволяет одному агенту мгновенно видеть результаты действий другого в рамках безопасной среды [2:21:10].
*   **Скорость вывода на рынок:** благодаря тому, что механизмы управления данными (governance) и безопасности встроены в архитектуру Lakebase изначально, команда Mastercard прошла путь от концепта до готового к масштабированию MVP всего за 7 недель [2:22:42].

В завершение главы Патрик Венделл [Patrick Wendell] пригласил на сцену Грега Брокмана [Greg Brockman], президента OpenAI [2:25:14]. Брокман отметил, что производство моделей превратилось в отлаженный «маховик» [2:28:11], и теперь критически важно интегрировать эти модели в рабочие процессы организаций. По его мнению, экспоненциальный рост возможностей ИИ не остановится, и текущее поколение моделей уже способно выполнять реальную работу, используя инструменты и контекст компании [2:31:02].

## 🤝 Синергия с OpenAI и технологический прорыв LTAP: смерть ETL-конвейеров
[[JUMP:2:31:02]]

### Партнёрство с OpenAI: от инструментов разработки до открытого кода
[[JUMP:2:31:14]]

В рамках обсуждения будущего ИИ Али Годси пригласил на сцену Грега Брокмана, президента и сооснователя OpenAI. Разговор начался с признания тектонического сдвига в производительности: если раньше модели автоматизировали около 20% рутинной работы, то теперь этот показатель стремится к 80% [2:31:14]. Брокман подчеркнул, что миссия OpenAI заключается в том, чтобы сделать передовые модели максимально доступными и безопасными для мира, поддерживая при этом высокий темп релизов [2:31:52].

Особое внимание было уделено роли данных в развитии самих продуктов OpenAI. Грег отметил, что данные — это «базовый ингредиент» или «мука в основе торта» при создании моделей [2:32:59]. OpenAI активно использует платформу Databricks для анализа того, как пользователи взаимодействуют с ChatGPT, что позволяет выявлять удивительные сценарии использования — от расшифровки сложных медицинских отчётов до агентских систем, решающих задачи автономно [2:33:52]. Инфраструктура Databricks помогает OpenAI справляться с колоссальными нагрузками, обеспечивая масштабируемость и надежность, которые Грег назвал приоритетом номер один [2:34:59].

Важной вехой сотрудничества стало развитие Codex — инструмента, который, по словам Брокмана, меняет само ощущение от работы с компьютером [2:36:54]. Патрик Венделл подтвердил, что в самой Databricks Codex стал стандартом: инженеры компании видят огромный прирост продуктивности благодаря быстрым циклам обновления ПО и моделей [2:37:08]. Ключевые тезисы по Codex:

*   Инструмент доступен через AI-шлюз Databricks, что позволяет настроить его за одну минуту [2:41:01].
*   Codex является open-source проектом, что заложено в ДНК OpenAI для предоставления возможности разработчикам адаптировать его под любые контексты [2:37:58].
*   Интеграция позволяет использовать Genie напрямую внутри Codex для работы с корпоративными данными [2:35:36].

Завершая блок, Грег Брокман поделился своим видением AGI. Он предложил рассматривать его не как конкретный момент времени, а как спектр возможностей [2:39:28]. По его мнению, главной задачей остается сохранение человека в центре системы, чтобы ИИ был лишь инструментом, ускоряющим достижение целей, поставленных людьми [2:39:56].

### Технология LTAP: революция в хранении и анализе данных
[[JUMP:2:42:50]]

После обсуждения ИИ-моделей Рейнольд Син вернулся к фундаментальной проблеме индустрии данных — разделению на транзакционные (OLTP) и аналитические (OLAP) системы. Традиционно для синхронизации этих миров использовались CDC-конвейеры (Change Data Capture), которые Син иронично расшифровал как «Continuous Data Corruption» (постоянное повреждение данных) [2:43:54]. Эти пайплайны хрупки, сложны в поддержке и часто становятся причиной ночных вызовов дата-инженеров [2:43:41].

Решением проблемы стала новая технология — **LTAP (Lake Transactional Analytical Processing)** [2:48:02]. Это развитие идеи HTAP, которая ранее считалась «святым граалем», но провалилась из-за проприетарности и компромиссов в производительности [2:44:47].

Архитектурный прорыв LTAP заключается в следующем:

1.  **Транскодирование на лету:** Хранилища Databricks (safekeepers и page servers) часто ограничены по вводу-выводу (IO-bound), но имеют избыток вычислительной мощности [2:46:04].
2.  **Конвертация форматов:** В момент записи транзакционных данных (строковый формат) свободные циклы CPU используются для их мгновенного преобразования в колоночный формат (Parquet/Delta/Iceberg) [2:46:17].
3.  **Эффективное сжатие:** Колоночный формат сжимает данные в соотношении от 10:1 до 100:1, что снижает нагрузку на сеть и диски, фактически улучшая общую производительность системы вместо её замедления [2:46:42].

Теперь данные в Lakebase (облачном Postgres на «озере», о котором говорилось ранее) автоматически становятся доступными для аналитического движка без каких-либо ETL-процессов [2:47:23]. Это позволяет выполнять аналитические запросы напрямую по самым свежим транзакционным данным [2:47:36]. Для поддержки сообщества Databricks анонсировала open-source библиотеку для конвертации данных Postgres напрямую в Parquet [2:48:58].

### Демонстрация LTAP: от минут к миллисекундам
[[JUMP:2:50:08]]

Холли продемонстрировала практическое применение LTAP на примере банковской системы, обрабатывающей миллиарды транзакций. Задача заключалась в том, чтобы агент мог в реальном времени выявить VIP-клиента прямо в момент его визита в банк и подобрать ему советника [2:50:21].

В ходе демо были сравнены три подхода:

1.  **Прямой запрос к OLTP:** Попытка выполнить сложную аналитику на транзакционной базе привела к выполнению запроса более чем за 1 минуту и обрушила показатели TPS (транзакций в секунду), создав угрозу остановки бизнеса [2:53:09].
2.  **Использование CDC:** Традиционный пайплайн показал задержку данных (staleness) в 25 секунд и потребовал 13 секунд на выполнение самого запроса [2:55:03]. В реальном времени это означает, что клиент уйдет раньше, чем система его распознает.
3.  **Метод LTAP:** Благодаря тому, что таблицы Lakebase видны в Unity Catalog как нативные Delta-таблицы [2:55:16], запрос через «Real-time Warehouse» выполнился за **миллисекунды** [2:56:12]. 

При использовании LTAP данные остаются абсолютно актуальными (нулевая задержка), а аналитическая нагрузка никак не влияет на стабильность основной базы данных [2:56:12]. Это объединяет разрозненные «континенты» инфраструктуры в единое пространство, доступное для любого количества ИИ-агентов без дополнительных затрат на обслуживание [2:48:32].

## 🏁 Финал унификации: от разрозненных «островов» данных к единой Пангее

[[JUMP:2:56:12]]

Завершая презентацию, Али Годси (Ali Ghodsi) подвел итог глобальной трансформации платформы, которая фактически стирает последние границы между миром операционных баз данных и аналитики [2:56:12]. Главным итогом представленных технологических обновлений стало значительное снижение затрат на вычислительные мощности [2:56:25]. По словам главы Databricks, новая архитектура обходится дешевле не только в эксплуатации, но и в обслуживании, поскольку компаниям больше не нужно управлять сложным стеком промежуточных инструментов для синхронизации данных [2:56:25]. 

### Экономика единого источника истины
[[JUMP:2:56:38]]

Отказ от фрагментированной ИТ-инфраструктуры позволяет компаниям перейти к концепции «единой системы записи» (single system of record) [2:56:38]. В этой парадигме одни и те же данные используются одновременно для операционных и аналитических систем, при этом инженерам больше не нужно идти на компромиссы в вопросах производительности [2:56:38]. 

Али Годси особо подчеркнул автоматизацию этого процесса:

*   Система настраивается автоматически, исключая необходимость в создании сложных фоновых пайплайнов [2:56:50].
*   Исчезает разделение мира на «операции» и «аналитику» — бизнесу больше не нужно выбирать между скоростью транзакций и глубиной инсайтов [2:56:50].
*   Устраняется необходимость в постоянном перемещении данных между разными хранилищами [2:57:08].

Этот подход Али сравнил с созданием «цифровой Пангеи» — единого суперконтинента данных, где ранее разделенные «острова» инфраструктуры сливаются в общую экосистему [2:57:08]. В основе этого объединения лежат открытые форматы Iceberg и Delta Lake, что позволяет пользователям буквально «подключаться к крану» с данными озера (lake tap) для любых нужд: от классического транзакционного процессинга до продвинутой обработки в реальном времени и Data Science [2:57:21].

### Эволюционный путь: от Spark до архитектуры LTAP
[[JUMP:2:57:34]]

Резюмируя путь компании, Али Годси напомнил, что Databricks последовательно шла к этой полной унификации на протяжении нескольких лет [2:57:34]. Процесс начался с объединения дата-инженерии и науки о данных с помощью Apache Spark [2:57:34]. Следующим шагом стало создание концепции Lakehouse, которая интегрировала в единое пространство задачи хранения и обработки данных [2:57:48].

Сегодня этот путь завершается появлением LTAP (Long-Term Analytical and Processing) — технологии, которая объединяет аналитику с транзакционными базами данных класса OLTP [2:57:48]. Это стало возможным благодаря внедрению высокоскоростного движка Raiden (известного также как Lakehouse RT), который окончательно замыкает цикл обработки данных внутри одной платформы [2:57:48]. Таким образом, современная архитектура ПО превращается в «Agentic System of Record», где данные не просто хранятся, а активно используются ИИ-агентами для принятия решений [2:58:00].

### Платформа для эпохи ИИ-агентов
[[JUMP:2:58:00]]

Главный вызов современности, по мнению Годси, заключается в том, что существующим ИИ-агентам критически не хватает контекста [2:58:00]. Чтобы решить эту проблему, Databricks представила комплексную «Агентную основу данных» (Agentic Data Foundation) [2:58:12]. Она включает в себя все ключевые анонсы первого дня саммита: от инструментов LakeFlow для бесшовной интеграции данных до кросс-облачного аварийного восстановления в Lakebase [2:58:12].

Для обеспечения агентов смысловым контекстом компания выделила три ключевых уровня:

1.  **Слой контекста:** Здесь ключевую роль играет Genie Ontology — граф знаний, структурирующий данные организации [2:58:25].
2.  **Слой управления:** Unity AI Gateway обеспечивает контроль расходов и безопасность всех моделей и агентов в одном месте [2:58:25].
3.  **Слой разработки:** Фреймворк Agentic Dev включает три основных направления — Genie One, Genie Code для написания программ и специализированных Genie-агентов для бизнес-задач [2:58:50].

В завершение сессии Али упомянул новые прикладные решения, такие как Lakewatch для кибербезопасности и Customer Lake для управления клиентскими данными (CDP), подчеркнув, что Databricks выходит на рынок готовых бизнес-приложений [2:58:50]. Финальным аккордом стало приглашение на второй день саммита, где Матей Захария (Matei Zaharia) подробно расскажет о проекте Omnient — еще одной важной части этой масштабной экосистемы [2:59:02].