Саурабх Баджи из Cohere: как прагматичный подход к LLM меняет правила игры в enterprise

Внедрение больших языковых моделей (LLM) в корпоративный сектор — это не просто вопрос «подключения» API, а сложнейшая инженерная задача, требующая прагматичного подхода к инфраструктуре и безопасности. В новом выпуске Machine Learning Street Talk Саурабх Баджи, старший вице-президент по инженерии в Cohere, рассказывает, как его компания превращает «магию» ИИ в надежный инструмент для гигантов вроде Oracle и Fujitsu.

🛠️ От Amazon до Cohere: путь инженера больших систем 0:00

Саурабх Баджи пришел в индустрию около 20 лет назад . Свою карьеру он начинал в Amazon (Сиэтл), где еще до появления Amazon Prime занимался предсказанием времени доставки товаров с помощью машинного обучения . Позже он перешел в AWS, где руководил сервисами Big Data и ML, пройдя путь от создания узкоспециализированных решений до управления облачными вычислениями планетарного масштаба .

До того как присоединиться к Cohere, Саурабх четыре года работал в Unity, занимаясь компьютерным зрением и симуляциями для робототехники . Наблюдая за эволюцией архитектуры Transformer — от GPT-2 к GPT-3 — он понял, что наступил момент для полного погружения в мир LLM . В Cohere он работает под руководством сооснователя Эйдана Гомеса, одного из авторов фундаментальной статьи «Attention Is All You Need» .

Ключевые этапы профессионального пути Баджи:

Amazon: Разработка распределенных систем для логистики.
AWS: Масштабирование ML-инфраструктуры и облачных сервисов.
Unity: Применение ИИ в 3D-движках и симуляциях.
Cohere: Руководство инженерным департаментом, фокусировка на эффективности моделей и их внедрении в enterprise-среду .

📉 Прагматизм против гигантомании: почему размер не имеет значения 9:07

В то время как индустрия гонится за моделями с триллионами параметров, Саурабх Баджи придерживается стратегии «радикального прагматизма» . По его мнению, корпоративным клиентам не нужны самые большие модели — им нужны решения, которые эффективно закрывают конкретные бизнес-задачи .

Основные аргументы против избыточно масштабных моделей:

Проблемы с приватностью: Крупные облачные модели требуют передачи данных на сторону провайдера, что недопустимо для многих банковских или медицинских организаций .
Инфраструктурные ограничения: Модель в 1 триллион параметров невозможно развернуть внутри закрытого контура клиента (on-premise) .
Экономическая неэффективность: Стоимость инференса (вывода) гигантских моделей делает их использование убыточным при массовом внедрении .

Саурабх утверждает, что Cohere фокусируется на создании моделей, которые обеспечивают высокую производительность в компактном форм-факторе. Это позволяет клиентам запускать ИИ там, где находятся их данные, а не перемещать терабайты чувствительной информации в публичное облако .

⚡ Оптимизация GPU: 50 моделей на одной карте 6:16

Одной из главных проблем современного ИИ является дефицит и дороговизна графических процессоров (GPU). Саурабх отмечает, что в начале пути все просто «бросали ресурсы на проблему», но теперь эффективность использования железа стала критическим фактором .

Инженеры Cohere разработали метод, позволяющий значительно оптимизировать расходы:

Мультиарендность на уровне GPU: Благодаря технологиям Cohere, клиенты могут запускать до 50 различных дообученных (fine-tuned) версий модели на одном видеоадаптере .
Эффективность инференса: Вместо того чтобы арендовать десятки машин под каждую специфическую задачу, бизнес может использовать один аппаратный юнит для множества процессов, сохраняя при этом гибкость настроек .

По словам Баджи, это дает клиентам «лучшее из двух миров»: максимальную кастомизацию под свои нужды при минимальных затратах на оборудование .

🔍 RAG и Rerank: данные важнее весов модели 20:22

Для корпоративного сектора технология RAG (Retrieval-Augmented Generation) является более важной, чем предобученные знания модели. Саурабх подчеркивает, что знание модели ограничено датой завершения её обучения . Чтобы LLM была полезна в бизнесе, она должна иметь доступ к актуальным внутренним документам компании.

Cohere предлагает двухступенчатый подход к работе с данными:

Embeddings (Векторные представления): Преобразование текстов компании в формат, понятный машине для семантического поиска .
Rerank (Переранжирование): Уникальный продукт Cohere, который позволяет добавить «семантический интеллект» поверх уже существующих поисковых систем компании (например, SharePoint или SQL-баз) всего одной строкой кода .

Баджи считает, что Rerank — это киллер-фича для enterprise, так как она не требует перестраивать всю IT-архитектуру. Модель просто берет результаты старого поиска и мгновенно поднимает наверх наиболее релевантные ответы, экономя компаниям миллионы долларов на миграции данных .

🛡️ Доверие и галлюцинации: как приручить ИИ 39:31

Саурабх Баджи высказывает неожиданную мысль: по его мнению, галлюцинации — это не баг, а фича LLM, поскольку именно эта способность позволяет моделям быть креативными и предсказывать следующее слово в тексте . Однако в бизнесе «творчество» модели должно быть строго ограничено фактами.

Для решения проблемы недоверия Cohere внедряет систему цитирования (citations) . Модель не просто выдает ответ, но и подсвечивает конкретные ссылки на документы-источники. По словам Баджи, это вызывает у клиентов «эффект откровения», когда они видят, что ИИ нашел связь между данными, о которой сотрудники даже не подозревали .

Важные аспекты безопасности:

Изоляция данных: Cohere гарантирует, что данные клиентов из on-premise или VPC сегментов никогда не попадают обратно в общую модель для переобучения .
Проверка (Verifiability): Возможность аудита каждого шага рассуждений модели .
JSON-mode: Вывод данных в строго структурированном виде для бесшовной интеграции в корпоративный софт .

🤖 Агенты и будущее: от чат-ботов к автономным рабочим процессам 33:55

2023 год Саурабх называет «годом POC» (доказательств концепции), а 2024 — «годом продакшена» . Он видит будущее не в простых чат-интерфейсах, а в ИИ-агентах, которые могут самостоятельно использовать инструменты и выполнять сложные цепочки действий.

Баджи выделяет три уровня развития технологий:

Инструкции: Модели, которые просто отвечают на вопросы.
Tool Use (Использование инструментов): Модель сама генерирует поисковые запросы, пишет SQL-код или вызывает API сторонних сервисов .
Self-correction (Самокоррекция): Современные модели Cohere (R и R+) способны понимать, что они ошиблись в рассуждениях, и самостоятельно перестраивать план действий для достижения верного результата .

По мнению гостя, английский (или любой естественный язык) становится главным языком программирования . Это позволит демократизировать создание софта: финансовый аналитик сможет настроить себе персонального «цифрового суррогата», который будет работать именно так, как привык этот конкретный человек .

🏢 Реальные кейсы: Oracle, Fujitsu и медицина 1:15:30

Сотрудничество с гигантами индустрии показывает реальный масштаб проникновения LLM:

Oracle: Cohere интегрировала свои модели в десятки приложений экосистемы Fusion и NetSuite — от управления персоналом (HCM) до цепочек поставок и финансов .
Fujitsu: Совместная разработка специализированной японской модели, которая учитывает культурные особенности и бизнес-этикет, принятый в Японии .
Медицина: Использование моделей для обработки колоссального объема онкологических исследований. Саурабх приводит пример, как ИИ помог исследователю найти коллегу из того же института, работающего над аналогичной проблемой в соседнем кабинете, просто проанализировав внутренние публикации .

В завершение Саурабх Баджи подчеркивает, что мы находимся лишь на поверхности айсберга. Ближайшие 12–18 месяцев станут периодом взрывного выхода в свет тех решений, которые компании тайно разрабатывали и тестировали последний год .