Али Годси: «Data Intelligence — это путь к демократизации ИИ»

Databricks 63,4 тыс. 27 мин 3 мин 12.06.2024
Главное

Эра Data Intelligence: Итоги выступления Али Годси на Data + AI Summit

0:00

На открытии глобальной конференции Data + AI Summit в Сан-Франциско сооснователь и CEO Databricks Али Годси представил видение «платформы интеллектуальной обработки данных» (Data Intelligence Platform). В своем выступлении Годси обозначил три ключевых барьера, с которыми сталкиваются современные организации при внедрении генеративного ИИ, и продемонстрировал, как экосистема Databricks помогает преодолеть эти препятствия, обеспечивая компаниям суверенитет над собственными данными.

🧠 Три главных вызова современного корпоративного ИИ 5:11

Али Годси отметил, что за последние 18 месяцев интерес к ИИ стал стратегическим приоритетом для компаний любого масштаба. Однако, согласно опросам клиентов Databricks, 85% проектов в области генеративного ИИ всё еще не вышли в стадию промышленной эксплуатации. По мнению спикера, это обусловлено тремя фундаментальными проблемами:

  1. Сложность внедрения GenAI. Стандартные бенчмарки, такие как MMLU, показывают впечатляющие результаты, но они не гарантируют успех для конкретных бизнес-задач организации. Бизнес нуждается в решениях, которые эффективно работают с их специфическими данными, обеспечивая при этом высокую точность, низкую стоимость и приватность.
  2. Безопасность и приватность. В условиях интенсивного давления со стороны регуляторов и постоянных киберугроз, компании опасаются использовать облачные модели и передавать свои данные внешним поставщикам.
  3. Фрагментация данных. Современная инфраструктура многих CIO перегружена множеством разрозненных систем: от хранилищ данных (Data Warehouses) до различных аналитических платформ. Это создает огромные затраты, сложность в управлении и проблему «вендор-лока» (зависимости от проприетарного ПО).

🏗 Путь к единой платформе: от Data Lake к Lakehouse 10:00

Годси подчеркнул, что фундаментальное решение заключается в отказе от передачи данных в закрытые «черные ящики» вендоров. Вместо этого организациям следует хранить данные в собственных облачных хранилищах (Data Lakes) с использованием стандартизированных форматов — своеобразного «USB-порта» для данных.

Ключевые технологические сдвиги:

🤖 Что такое Data Intelligence Platform? 17:41

Концепция «Data Intelligence» подразумевает, что платформа Databricks обучается на данных клиента в изоляции, понимая бизнес-терминологию и контекст конкретной организации. Это позволяет:

🚀 Переход на полностью серверную инфраструктуру 24:23

Важнейшим анонсом стало то, что с 1 июля 2026 года вся платформа Databricks (от блокнотов до рабочих процессов) переходит в серверный режим (serverless). Это означает отказ от ручной настройки кластеров, управления версиями Spark и планирования мощностей.

В будущем все новые продукты Databricks будут выпускаться исключительно в серверном формате, что, по словам Годси, является необходимым шагом для перехода к современным стандартам разработки.

💬 Цитаты

«Если вы храните данные в этом USB-формате, то кабели не смогут подключиться; если в том — другие движки не смогут подключиться. Мы не хотим, чтобы было так.»

Али Годси 13:06

«Если вы говорите на английском или любом другом естественном языке, вы должны иметь возможность задать свой вопрос к данным.»

Али Годси 19:13
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Lakehouse
Архитектура, сочетающая гибкость и дешевизну Data Lake с производительностью и управлением Data Warehouse.
Data Intelligence
Концепция платформы, использующей GenAI для понимания данных и автоматизации аналитики внутри компании.
Serverless
Модель вычислений, при которой провайдер автоматически управляет распределением ресурсов, исключая необходимость ручной настройки кластеров.
MMLU
Масштабный многоязычный бенчмарк для оценки знаний и навыков рассуждения больших языковых моделей.
📊 Цифры
🗓 Хронология
  1. 11 лет назад Запуск проекта Apache Spark.
  2. 5 лет назад Формулирование концепции Lakehouse.
  3. 18 месяцев назад Начало активного стратегического фокуса CIO на GenAI.
  4. 1 июля 2026 Переход всей платформы Databricks на серверную модель.
⚖️ Другая сторона
Искусственный интеллект Databricks Data Intelligence Unity Catalog Delta Lake Apache Iceberg