# Али Годси: «Open source способен вытеснить любое проприетарное ПО»

Источник: https://www.youtube.com/watch?v=gsnpZS2S8dw
Канал: SaaStr AI
Опубликовано: 07.12.2021

---

На конференции SaaStr состоялась дискуссия между руководителем open source офиса Comcast Нитией Рафф и генеральным директором Databricks Али Годси. Собеседники обсудили масштабную трансформацию коммерческого open source, переход от традиционной модели поддержки к облачному SaaS и стратегии построения многомиллиардного бизнеса вокруг открытого кода. В центре внимания оказалась история успеха Databricks, сумевшей превратить экосистему Apache Spark в единую платформу данных и искусственного интеллекта для крупнейших мировых предприятий.

## 📈 Эволюция коммерческого Open Source: от Red Hat до миллиардных единорогов
[[JUMP:0:05]]

Нития Рафф напомнила, что индустрия отмечает 30-летие со дня создания ядра Linux Линусом Торвальдсом. Открытый код превратился в один из самых успешных драйверов глобальных инноваций, проникнув во все сферы — от суперкомпьютеров до интернета вещей (IoT) и искусственного интеллекта. 

Финансовый ландшафт open source также претерпел фундаментальные изменения. По данным Рафф, в 1990-х и 2000-х годах на рынке коммерческого open source безоговорочно доминировала компания Red Hat. Однако сегодня ситуация изменилась:

* Текущая суммарная оценка open source компаний приближается к $300–$400 млрд.
* Доля Red Hat составляет лишь около 10% от этой стоимости.
* На рынке появились новые гиганты и успешные выходы на биржу вроде Confluent.
* Статус «единорогов» получили такие игроки, как Databricks, Confluent и HashiCorp.

По оценке Нитии Рафф, ежегодный объем инвестиций в коммерческие open source стартапы (Commercial Open Source, COSS) сейчас измеряется десятками миллиардов долларов.

## 🚗 Эпоха раннего Spark: как Databricks завоевывала разработчиков «на местах»
[[JUMP:4:19]]

Компания Databricks зародилась в стенах исследовательской лаборатории AMPLab Университета Калифорнии в Беркли на базе проекта Apache Spark. Как рассказал Али Годси, в первые два года существования стартапа руководство полностью сфокусировалось на выстраивании отношений с сообществом разработчиков, а не на генерации выручки. 

Методы продвижения технологии на раннем этапе были сугубо низовыми:

* Первые 5–6 основателей и около 20 первых наемных сотрудников компании фактически работали в роли специалистов по связям с разработчиками (DevRel).
* Команда арендовала автомобили в прокате Enterprise, выезжала на шоссе 101 и посещала технологические стартапы в Кремниевой долине.
* Инженеры Databricks выступали с докладами о Spark, убеждая разработчиков внедрять инструмент в таких компаниях, как Twitter, Facebook и Airbnb.

Али Годси подчеркнул, что они принципиально игнорировали топ-менеджеров («людей в костюмах») и завоевывали доверие рядовых программистов поодиночке. Сегодня open source проекты Databricks генерируют суммарно около 30 млн скачиваний ежемесячно, что создает уникальный B2C-эффект (business-to-consumer) в глубоко корпоративном секторе. По мнению Годси, сильное сообщество делает компанию практически непобедимой, позволяя масштабировать и последующие проекты — Delta Lake, MLflow и Koalas.

Разработчики выполняют несколько критических функций для бизнеса Databricks:

1.  **Адвокация внутри корпораций.** Когда Databricks приходит продавать корпоративную версию, технические специалисты ускоряют процесс, подтверждая руководству надежность технологии, которую они уже протестировали на личных ноутбуках.
2.  **Экосистема обучения.** Вокруг открытых проектов формируется рынок независимых курсов, книг и специалистов, что избавляет клиентов от необходимости покупать дорогой профессиональный консалтинг у вендора.
3.  **Привлечение талантов.** Возможность легально контрибьютить в open source проекты без нарушения NDA позволяет Databricks успешно конкурировать за лучшие инженерные кадры с Google и Facebook.

## 🏷️ Стратегический нейминг: почему Databricks отказалась от бренда Spark
[[JUMP:9:39]]

На раннем этапе внутри компании велись ожесточенные дискуссии по поводу ее названия. Многие сооснователи-инженеры настаивали на использовании бренда Spark в имени юридического лица (по аналогии со стартапом Docker), чтобы капитализировать популярность проекта. 

Однако руководство приняло осознанное решение разделить название компании и технологии. Али Годси объяснил логику этого шага следующими аргументами:

* **Технологические циклы.** Любая технология неизбежно устаревает со временем. Название, привязанное к одному инструменту, ограничивает инновационный потенциал компании в будущем.
* **Пример Google.** При создании Google ключевым технологическим преимуществом был алгоритм PageRank, превосходивший Yahoo! и AltaVista, но основатели не стали называть компанию в его честь.

В итоге было выбрано нейтральное название Databricks, символизирующее последовательное строительство стека данных «по одному кирпичику». Это дало компании стратегическую свободу для эволюции от хранилищ данных до сложных ML-платформ.

## ☁️ Крах On-Premises и триумф модели SaaS в облаке
[[JUMP:11:51]]

Одним из ключевых факторов долгосрочного успеха Databricks стал отказ от традиционной для open source модели on-premises (развертывание на собственных серверах клиента с продажей технической поддержки). Единственным успешным примером такой модели Годси считает Red Hat, которая в итоге все равно потеряла независимость. 

Али Годси подробно описал дефекты on-prem бизнес-модели на примере рынка Hadoop в 2010-х годах:

* Первопроходец рынка (например, Cloudera) продавал крупному клиенту услуги поддержки вокруг Hadoop для создания озер данных.
* Через год клиент уходил к конкуренту (Hortonworks) за более дешевой поддержкой.
* Еще через два года клиент нанимал собственную команду инженеров или отдавал поддержку на аутсорс, продолжая бесплатно использовать открытый софт.

По определению Годси, on-prem модель open source компаний — это «продажа услуг, замаскированная под программное обеспечение». Такая схема дестимулирует вендоров улучшать код, поскольку они зарабатывают на консалтинге при решении проблем. 

Вдохновившись примером AWS, Databricks сделала ставку на модель Cloud SaaS (программное обеспечение как услуга в облаке). В этой парадигме клиент арендует софт, а вендор берет на себя автоматизацию, безопасность, обеспечение SLA и болезненные апгрейды версий, которые в on-prem среде могли занимать до года и сопровождаться сбоями. Нития Рафф подтвердила этот тезис личным примером, отметив, что развертывание on-prem решений в Comcast занимало «вечность», в то время как переход на SaaS кардинально ускорил операционные процессы.

## 🤼 Противостояние с облачными гигантами и будущее открытого кода
[[JUMP:15:04]]

Многие независимые поставщики ПО (ISV) сталкиваются с жесткой конкуренцией со стороны гиперскейлеров (AWS, Microsoft Azure, Google Cloud), которые берут чужой open source код и продают его как собственную услугу. Чтобы защититься, некоторые стартапы начинают менять лицензии своих проектов, закрывая код. Али Годси считает такой путь ошибочным.

По мнению Годси, устойчивость Databricks обеспечивается тем, что компания изначально была «cloud-native». Он использовал метафору «хождения на руках»:

> «Запуск софта в облаке в качестве сервиса — это как если бы вам сказали всю оставшуюся жизнь ходить на руках. Это невероятно тяжело. Традиционные on-prem вендоры создают отличный open source, но они не умеют ходить на руках. Когда клиенты просят их выйти в облако, они спотыкаются, так как облачные провайдеры занимаются этим десятилетиями. Мы же с самого первого дня учились ходить только на руках».

Благодаря этой экспертизе Databricks успешно конкурирует с облачными гигантами на их же поле. Спикер выразил убеждение, что open source не умрет, а наоборот — способен вытеснить любое проприетарное ПО на планете, включая сложнейшие операционные системы и стеки данных. Годси привел пример своего друга, которому венчурные капиталисты Силиконовой долины отказали в финансировании стартапа только потому, что у него не было open source проекта и сформированного сообщества, что инвесторы сочли слишком высоким риском.

Дополнительным преимуществом Databricks Рафф и Годси называют мультиоблачную стратегию (multi-cloud). Возможность работать в любой инфраструктуре стала жестким требованием enterprise-заказчиков из-за международной специфики: в Азии, Европе и США популярность конкретных облачных провайдеров распределена неравномерно.

## 🧠 Концепция Lakehouse: объединение обработки данных и машинного обучения
[[JUMP:21:22]]

Основная сложность, с которой сталкиваются современные предприятия при внедрении машинного обучения (ML), заключается в разрыве между обработкой данных и ИИ-инструментами. Али Годси отметил, что ИТ-рынок исторически разделен на две изолированные категории:

* **AI-вендоры:** предоставляют отличные алгоритмы машинного обучения, но не имеют мощностей для масштабной обработки данных.
* **Data-вендоры:** хорошо обрабатывают данные, но лишены встроенных AI-возможностей.

Такие гиганты, как Google, Facebook, Uber и AirBnb, решили эту проблему, потратив силы тысяч инженеров на создание закрытых внутренних платформ, объединяющих данные и ИИ. Обычные предприятия не обладают такими ресурсами. Стратегическая цель Databricks — предоставить рынку открытую единую платформу (концепция Lakehouse), где дата-инженеры, дата-сайентисты и бизнес-аналитики работают в одном пространстве.

Компания последовательно развивает и передает в нейтральные фонды (Apache Foundation, Linux Foundation) ключевые элементы этого стека:

* **Apache Spark** — для первичного сбора и извлечения данных.
* **Delta Lake** — для обеспечения надежности, транзакционности и высокой скорости работы хранилища.
* **MLflow** — для оркестрации и управления всем жизненным циклом моделей машинного обучения.
* **Redash** — для визуализации аналитики и построения дашбордов.

Участники дискуссии привели примеры практического применения платформы Databricks:

* **Comcast:** аудиосигнал с миллионов голосовых пультов дистанционного управления поступает в Databricks Lakehouse, оркеструется через MLflow и сохраняется в Delta Lake для распознавания естественного языка. Подробный доклад об этой архитектуре ранее представлял инженер Comcast Джим Форсайт.
* **Фармацевтический сектор:** крупнейшие медицинские команды в США и Европе использовали архитектуру Lakehouse от Databricks для ускорения разработки и анализа данных при создании вакцин.
* **Shell:** корпорация применяет технологии Databricks для предиктивного анализа и поиска новых нефтяных ресурсов.

В заключении встречи Нития Рафф подчеркнула, что модель коммерческого open source доказала свою зрелость благодаря разделению уровней: компании могут совместно инвестировать в открытые проекты на уровне фондов, но конкурировать на уровне готовых SaaS-продуктов. Али Годси резюмировал, что именно стирание «шероховатостей» открытого кода силами SaaS-моделей определит доминирование таких платформ в новую технологическую эпоху.