# Али Годси: «Data Intelligence — это путь к демократизации ИИ»

Источник: https://www.youtube.com/watch?v=-6dt7eJ3cMs
Канал: Databricks
Опубликовано: 12.06.2024

---

# Эра Data Intelligence: Итоги выступления Али Годси на Data + AI Summit

[[JUMP:0:00]]

На открытии глобальной конференции Data + AI Summit в Сан-Франциско сооснователь и CEO Databricks Али Годси представил видение «платформы интеллектуальной обработки данных» (Data Intelligence Platform). В своем выступлении Годси обозначил три ключевых барьера, с которыми сталкиваются современные организации при внедрении генеративного ИИ, и продемонстрировал, как экосистема Databricks помогает преодолеть эти препятствия, обеспечивая компаниям суверенитет над собственными данными.

## 🧠 Три главных вызова современного корпоративного ИИ
[[JUMP:5:11]]

Али Годси отметил, что за последние 18 месяцев интерес к ИИ стал стратегическим приоритетом для компаний любого масштаба. Однако, согласно опросам клиентов Databricks, 85% проектов в области генеративного ИИ всё еще не вышли в стадию промышленной эксплуатации. По мнению спикера, это обусловлено тремя фундаментальными проблемами:

1.  **Сложность внедрения GenAI.** Стандартные бенчмарки, такие как MMLU, показывают впечатляющие результаты, но они не гарантируют успех для конкретных бизнес-задач организации. Бизнес нуждается в решениях, которые эффективно работают с их специфическими данными, обеспечивая при этом высокую точность, низкую стоимость и приватность.
2.  **Безопасность и приватность.** В условиях интенсивного давления со стороны регуляторов и постоянных киберугроз, компании опасаются использовать облачные модели и передавать свои данные внешним поставщикам.
3.  **Фрагментация данных.** Современная инфраструктура многих CIO перегружена множеством разрозненных систем: от хранилищ данных (Data Warehouses) до различных аналитических платформ. Это создает огромные затраты, сложность в управлении и проблему «вендор-лока» (зависимости от проприетарного ПО).

## 🏗 Путь к единой платформе: от Data Lake к Lakehouse
[[JUMP:10:00]]

Годси подчеркнул, что фундаментальное решение заключается в отказе от передачи данных в закрытые «черные ящики» вендоров. Вместо этого организациям следует хранить данные в собственных облачных хранилищах (Data Lakes) с использованием стандартизированных форматов — своеобразного «USB-порта» для данных.

### Ключевые технологические сдвиги:

* **Проект Uniform.** Чтобы устранить конкуренцию форматов Delta Lake и Apache Iceberg, Databricks анонсировала приобретение компании Tabular, основанной создателями Apache Iceberg. Цель проекта Uniform — обеспечить полную совместимость между этими форматами, чтобы пользователям больше не приходилось выбирать между ними.
* **Unity Catalog.** Это ключевой элемент безопасности и управления, который позволяет отслеживать не только таблицы, но и неструктурированные файлы, а также модели машинного обучения. В рамках саммита компания объявила об открытии исходного кода Unity Catalog.

## 🤖 Что такое Data Intelligence Platform?
[[JUMP:17:41]]

Концепция «Data Intelligence» подразумевает, что платформа Databricks обучается на данных клиента в изоляции, понимая бизнес-терминологию и контекст конкретной организации. Это позволяет:

* **Демократизировать доступ к данным.** По словам Годси, CEO или бизнес-пользователь не должны знать SQL или Python. Благодаря генеративному ИИ, Unity Catalog автоматически описывает данные на естественном языке, что позволяет задавать вопросы к данным простыми фразами.
* **Демократизировать ИИ.** С помощью Mosaic AI специалисты могут легко создавать, дообучать (fine-tuning), оценивать и выводить в продакшн собственные ИИ-модели, используя внутренние данные компании.

## 🚀 Переход на полностью серверную инфраструктуру
[[JUMP:24:23]]

Важнейшим анонсом стало то, что с 1 июля 2026 года вся платформа Databricks (от блокнотов до рабочих процессов) переходит в серверный режим (serverless). Это означает отказ от ручной настройки кластеров, управления версиями Spark и планирования мощностей.

* **Преимущества серверного подхода:**
    * Отсутствие затрат на «простаивающее» оборудование.
    * Автоматическая оптимизация раскладки данных средствами машинного обучения.
    * Упрощенное управление безопасностью и стоимостью (cost control).

В будущем все новые продукты Databricks будут выпускаться исключительно в серверном формате, что, по словам Годси, является необходимым шагом для перехода к современным стандартам разработки.