Эра Data Intelligence: Итоги выступления Али Годси на Data + AI Summit
На открытии глобальной конференции Data + AI Summit в Сан-Франциско сооснователь и CEO Databricks Али Годси представил видение «платформы интеллектуальной обработки данных» (Data Intelligence Platform). В своем выступлении Годси обозначил три ключевых барьера, с которыми сталкиваются современные организации при внедрении генеративного ИИ, и продемонстрировал, как экосистема Databricks помогает преодолеть эти препятствия, обеспечивая компаниям суверенитет над собственными данными.
🧠 Три главных вызова современного корпоративного ИИ 5:11
Али Годси отметил, что за последние 18 месяцев интерес к ИИ стал стратегическим приоритетом для компаний любого масштаба. Однако, согласно опросам клиентов Databricks, 85% проектов в области генеративного ИИ всё еще не вышли в стадию промышленной эксплуатации. По мнению спикера, это обусловлено тремя фундаментальными проблемами:
- Сложность внедрения GenAI. Стандартные бенчмарки, такие как MMLU, показывают впечатляющие результаты, но они не гарантируют успех для конкретных бизнес-задач организации. Бизнес нуждается в решениях, которые эффективно работают с их специфическими данными, обеспечивая при этом высокую точность, низкую стоимость и приватность.
- Безопасность и приватность. В условиях интенсивного давления со стороны регуляторов и постоянных киберугроз, компании опасаются использовать облачные модели и передавать свои данные внешним поставщикам.
- Фрагментация данных. Современная инфраструктура многих CIO перегружена множеством разрозненных систем: от хранилищ данных (Data Warehouses) до различных аналитических платформ. Это создает огромные затраты, сложность в управлении и проблему «вендор-лока» (зависимости от проприетарного ПО).
🏗 Путь к единой платформе: от Data Lake к Lakehouse 10:00
Годси подчеркнул, что фундаментальное решение заключается в отказе от передачи данных в закрытые «черные ящики» вендоров. Вместо этого организациям следует хранить данные в собственных облачных хранилищах (Data Lakes) с использованием стандартизированных форматов — своеобразного «USB-порта» для данных.
Ключевые технологические сдвиги:
- Проект Uniform. Чтобы устранить конкуренцию форматов Delta Lake и Apache Iceberg, Databricks анонсировала приобретение компании Tabular, основанной создателями Apache Iceberg. Цель проекта Uniform — обеспечить полную совместимость между этими форматами, чтобы пользователям больше не приходилось выбирать между ними.
- Unity Catalog. Это ключевой элемент безопасности и управления, который позволяет отслеживать не только таблицы, но и неструктурированные файлы, а также модели машинного обучения. В рамках саммита компания объявила об открытии исходного кода Unity Catalog.
🤖 Что такое Data Intelligence Platform? 17:41
Концепция «Data Intelligence» подразумевает, что платформа Databricks обучается на данных клиента в изоляции, понимая бизнес-терминологию и контекст конкретной организации. Это позволяет:
- Демократизировать доступ к данным. По словам Годси, CEO или бизнес-пользователь не должны знать SQL или Python. Благодаря генеративному ИИ, Unity Catalog автоматически описывает данные на естественном языке, что позволяет задавать вопросы к данным простыми фразами.
- Демократизировать ИИ. С помощью Mosaic AI специалисты могут легко создавать, дообучать (fine-tuning), оценивать и выводить в продакшн собственные ИИ-модели, используя внутренние данные компании.
🚀 Переход на полностью серверную инфраструктуру 24:23
Важнейшим анонсом стало то, что с 1 июля 2026 года вся платформа Databricks (от блокнотов до рабочих процессов) переходит в серверный режим (serverless). Это означает отказ от ручной настройки кластеров, управления версиями Spark и планирования мощностей.
- Преимущества серверного подхода:
- Отсутствие затрат на «простаивающее» оборудование.
- Автоматическая оптимизация раскладки данных средствами машинного обучения.
- Упрощенное управление безопасностью и стоимостью (cost control).
В будущем все новые продукты Databricks будут выпускаться исключительно в серверном формате, что, по словам Годси, является необходимым шагом для перехода к современным стандартам разработки.