Переход государственных ведомств на современные облачные технологии долгое время сдерживался жесткими требованиями безопасности, бюрократией и нежеланием отказываться от локальной ИТ-инфраструктуры. В рамках семинара в Stanford University вице-президент по корпоративной стратегии Databricks Рори Паттерсон и генеральный директор венчурного фонда In-Q-Tel Стив Боушер обсудили, как компания смогла преодолеть сопротивление госсектора США, отказаться от тупиковой модели кастомной разработки и внедрить платформу анализа данных и искусственного интеллекта в ключевые федеральные ведомства.
🪖 Путь из американской разведки в Кремниевую долину 1:11
Рори Паттерсон обладает уникальным опытом, сочетающим службу в вооруженных силах, работу в разведывательном сообществе США и управление коммерческими технологическими гигантами . Паттерсон начал свою карьеру в качестве офицера военной разведки сухопутных войск США, где прослужил около семи лет . Его последним назначением в армии стала служба в совместном командовании Агентства национальной безопасности (АНБ) и сухопутных войск под названием Network Warfare, которое впоследствии трансформировалось в Киберкомандование США (US Cyber Command) . Паттерсон вошел в число первых 100 сотрудников этой структуры .
После завершения армейской службы он провел еще семь лет в разведывательном сообществе на авиабазе Форт-Мид (штат Мэриленд) в статусе гражданского сотрудника («blue badger») . В этот период его ключевой задачей стал анализ коммерческих технологий и поиск баланса между самостоятельной разработкой ПО ведомствами и закупкой готовых коммерческих решений (подход «build versus buy») .
Покинув государственную службу, Паттерсон переехал в Кремниевую долину и устроился в компанию Splunk, специализирующуюся на технологиях индексированного поиска и кибербезопасности (недавно поглощенную ИТ-гигантом Cisco) . Проработав там четыре года, последние три из которых он занимал должность руководителя аппарата генерального директора (Chief of Staff), Паттерсон получил предложение от сооснователя и CEO Databricks Али Годси .
В Databricks Паттерсон совмещает две ключевые роли:
- Руководитель аппарата генерального директора (Chief of Staff).
- Председатель совета директоров и генеральный менеджер федерального направления бизнеса (Databricks Federal) .
По словам Паттерсона, первоначально Али Годси оценивал распределение его времени как 90% на задачи аппарата и 10% на федеральный сектор, однако в реальности нагрузка распределяется примерно 50 на 50 .
🔄 Эволюция платформы: от Spark-оболочки к корпоративной экосистеме 3:39
Компания Databricks была основана группой аспирантов Калифорнийского университета в Беркли (UC Berkeley), которые создали Apache Spark — технологию распределенных вычислений с открытым исходным кодом . Сегодня Apache Spark является фактическим стандартом для большинства систем машинного обучения . По данным Паттерсона, Spark фиксирует около 1 миллиарда скачиваний в год . Даже организации, не использующие коммерческие продукты Databricks напрямую, эксплуатируют Spark под капотом облачных сервисов (например, AWS EMR или Google Cloud Dataproc) или создают собственные платформы на его основе, как это сделала компания Netflix .
Стив Боушер отметил, что многие стартапы совершают ошибку, пытаясь монетизировать исключительно open-source проект . Такие компании быстро упираются в потолок капитализации и рыночного влияния .
По мнению Боушера, успех Databricks объясняется тем, что команда вовремя осознала необходимость создания дополнительных проприетарных сервисов поверх открытого ядра Apache Spark . За последние 10 лет Databricks эволюционировала от простой облачной оболочки для Spark в глубоко интегрированную платформу обработки данных (Lakehouse), которая включает в себя:
- Полноценное хранилище данных (Data Warehouse).
- Единую систему управления и разграничения доступа (Governance).
- Технологии потоковой обработки данных в реальном времени (Streaming) .
Паттерсон подчеркивает, что цель Databricks — избавить новые медиагиганты (такие как Disney+ или Paramount) от необходимости тратить 10 лет и нанимать 2000 инженеров для воссоздания инфраструктуры с нуля, предложив им готовую SaaS-платформу .
🏛️ Федеральные сценарии: от почтовых отправлений до спасения бюджета Пентагона 6:23
Применимость технологий анализа данных и искусственного интеллекта в государственном секторе США оказалась практически безграничной, поскольку большинство задач ведомств сводятся к обработке колоссальных массивов информации .
Паттерсон выделил несколько ключевых примеров внедрения Databricks в госсекторе:
- Департамент внутренней безопасности (DHS): По заявлению заместителя министра внутренней безопасности США, автоматизация иммиграционных процессов на базе Databricks стала ИИ-кейсом номер один в ведомстве . Системе удалось устранить критические задержки при прохождении таможенного и иммиграционного контроля . Кроме того, Погранично-таможенная служба США (CBP) использует платформу для анализа цепочек поставок с целью пресечения контрабанды фентанила .
- Почтовая служба США (USPS): Ведомство применило Databricks для модернизации системы отслеживания посылок в реальном времени, создав аналог логистических сервисов Amazon .
- Министерство обороны США (DoD) и ADVANA: Главное управление по цифровым технологиям и ИИ Пентагона (CDAO) запустило программу ADVANA, направленную на интеграцию 1000 разрозненных оборонных датасетов (от финансов и логистики до кадрового состава) . До внедрения платформы поиск ответов на простейшие вопросы — например, о точных резервах топлива, количестве боеприпасов на складе или дислокации сержантов определенного профиля — мог занимать у военного командования недели или месяцы из-за изоляции данных в различных ведомственных силосах .
Благодаря внедрению Databricks Пентагону удалось объединить более 800 источников данных . Скорость получения ответов сократилась с месяцев до минут .
Как утверждает Паттерсон, благодаря устранению дублирующих и некорректных платежей контрагентам Министерство обороны США сэкономило около 1 миллиарда долларов . Данная технология призвана помочь Пентагону решить хроническую проблему с непрохождением ежегодных государственных аудитов (ведомство провалило 8 или 9 аудитов подряд) .
Для сравнения Паттерсон привел коммерческий пример: один из крупнейших мировых банков сократил время сверки всех финансовых транзакций клиентов с 10 часов до 3 секунд .
🛑 Отказ от On-Premises: тяжелый выбор и экономика комплаенса 8:39
Исторически госорганы США требовали от ИТ-поставщиков развертывания систем непосредственно на их территории (on-premises), мотивируя это безопасностью и привычным лицензированием . Чтобы быстро выйти на федеральный рынок и получить мгновенный приток выручки, Databricks, как и большинство крупнейших софтверных компаний, создала отдельную (ответвленную) версию своего ПО для локальной установки . Паттерсон считает это классической системной ошибкой .
Проблема заключалась в том, что коммерческая SaaS-версия Databricks обновляется до 400 раз в неделю, развертываясь в 75 регионах трех крупнейших облачных провайдеров (AWS, Microsoft Azure, Google Cloud) . Локальная (forked) версия для госсектора неизбежно отставала от технологического прогресса, генерируя колоссальный технический долг .
Когда Паттерсон возглавил федеральное подразделение, он принял стратегическое решение заморозить локальную версию и полностью перевести госсектор на облачную SaaS-модель . Это решение вызвало мощное внутреннее сопротивление:
- На тот момент 70% всей выручки Databricks в федеральном секторе приходилось именно на локальные (on-premises) лицензии, и лишь 30% — на облако .
- Отдел продаж опасался, что государственные заказчики никогда не согласятся на покупку облачной версии .
Переход на облачную стратегию занял несколько лет и потребовал колоссальных инвестиций в комплаенс:
- Первый год: Получение сертификации FedRAMP Moderate, требующей внедрения 50 дополнительных протоколов безопасности и отчетности сверх коммерческого стандарта .
- Последующие этапы: Прохождение проверок для GovCloud и получение уровня допуска DoD IL5 (Impact Level 5), который позволяет обрабатывать конфиденциальную оборонную информацию .
- Текущий статус: Авторизация уровня IL5 была получена компанией за три недели до выступления Паттерсона, после почти трех лет работы над инфраструктурой .
Бюрократия остается главным барьером. Паттерсон рассказал, что государственная проверка пакета документов для GovCloud заняла 9 месяцев . Все это время готовая облачная инфраструктура Databricks простаивала без единого клиента, обходясь компании примерно в 200 000 долларов ежемесячно в качестве чистых операционных расходов .
Тем не менее, облачная модель полностью оправдала себя. Теперь государственные ведомства получают те же обновления ПО, что и коммерческие банки с Уолл-стрит, с задержкой всего в две недели (необходимой для проведения проверок безопасности) . При этом закупки осуществляются мгновенно через облачные маркетплейсы AWS и Azure, минуя сложные тендерные процедуры, а сами данные физически не покидают защищенные облачные хранилища клиентов (такие как AWS S3 или ADLS на Azure) [17:11, 18:45].
🤖 Будущее ИИ в госсекторе: генеративные агенты и борьба с бюрократией 23:48
По мнению Паттерсона, правительство США имеет застарелую привычку «закидывать проблемы людьми» вместо автоматизации процессов . В настоящий момент на государство работают сотни тысяч внештатных ИТ-консультантов . Паттерсон убежден, что не менее 50% этих специалистов выполняют тривиальные задачи и могут быть безболезненно заменены качественным программным обеспечением .
Ключевым драйвером изменений должны стать генеративный ИИ, большие языковые модели (LLM) и мультиагентные системы (compound agent systems) . Паттерсон подчеркивает важный методологический аспект: LLM не должны рассматриваться как хранилище знаний или источник конечных ответов. Они являются интеллектуальным интерфейсом для взаимодействия с базами данных .
Основная ценность моделей заключается в работе с контекстом. В качестве примера Паттерсон привел поиск информации по Китаю во время его службы в разведке . Традиционный SQL-запрос по ключевому слову «Китай» не выдавал отчеты по Шанхаю, если аналитик вручную не проставил соответствующий тег . LLM способна понимать семантический контекст (что Шанхай находится в Китае, а табурет относится к категории стульев) и выдавать релевантные обобщения по терабайтам неструктурированных данных [38:52, 39:39].
Databricks активно развивает это направление. Паттерсон упомянул, что компания приобрела ИИ-стартап (прим. ред. — MosaicML в 2023 году) и обучила собственную языковую модель класса GPT-3.5 всего за 10 миллионов долларов .
Он прогнозирует, что стоимость обучения моделей будет стремительно снижаться . Главным ограничителем для масштабного развертывания ИИ в будущем станет не цена алгоритмов, а доступность электроэнергии для их непрерывной работы .
⚔️ Конкурентный ландшафт: Snowflake, Palantir и стратегии маркетплейсов 30:17
Отвечая на вопросы аудитории о конкуренции, Стив Боушер отметил, что отсутствие соперников на рынке всегда является тревожным сигналом для венчурных инвесторов. Заявление стартапа «у нас нет конкурентов» на питч-сессии чаще всего свидетельствует о том, что они решают несущественную проблему, на которой невозможно построить большой бизнес .
Паттерсон дал детальную оценку двум ключевым игрокам в смежных сегментах:
- Snowflake: По мнению Паттерсона, Snowflake представляет собой великолепное облачное хранилище данных, являющееся по сути «современной СУБД Oracle в облаке» . Однако эта система исторически оптимизирована под структурированные данные, тогда как современные платформы должны одинаково эффективно работать как со структурированной, так и с неструктурированной информацией (видео, аудио, геоданные) .
- Palantir: Продукты этой компании построены по принципу «сверху вниз» (mission-down) . Palantir обладает выдающимся пользовательским интерфейсом (UI), который Паттерсон лично использовал во время госслужбы . При этом процессы импорта и подготовки данных (data ingestion) в Palantir реализованы сложнее . Паттерсон назвал Palantir отличным партнером (в данный момент компании создают технологическую интеграцию) и похвалил их за слом государственной парадигмы шестилетних долгостроев в пользу поставки рабочих ИТ-решений за шесть месяцев по фиксированной цене .
В завершение дискуссии Паттерсон спрогнозировал масштабную волну перестройки корпоративного софта . ИТ-системы, созданные 15–20 лет назад (такие как платформы от Salesforce или Workday), будут полностью переписаны . Новые технологические стартапы не станут создавать инфраструктуру с нуля или использовать устаревшие базы данных Oracle, а развернут свои отраслевые SaaS-приложения непосредственно поверх готовых аналитических платформ вроде Databricks .