# Саурабх Баджи из Cohere: как прагматичный подход к LLM меняет правила игры в enterprise

Источник: https://www.youtube.com/watch?v=BvRyV9-x1a8
Канал: Machine Learning Street Talk
Опубликовано: 12.09.2024

---

Внедрение больших языковых моделей (LLM) в корпоративный сектор — это не просто вопрос «подключения» API, а сложнейшая инженерная задача, требующая прагматичного подхода к инфраструктуре и безопасности. В новом выпуске Machine Learning Street Talk Саурабх Баджи, старший вице-президент по инженерии в Cohere, рассказывает, как его компания превращает «магию» ИИ в надежный инструмент для гигантов вроде Oracle и Fujitsu.

## 🛠️ От Amazon до Cohere: путь инженера больших систем
[[JUMP:0:00]]

Саурабх Баджи пришел в индустрию около 20 лет назад [0:29]. Свою карьеру он начинал в Amazon (Сиэтл), где еще до появления Amazon Prime занимался предсказанием времени доставки товаров с помощью машинного обучения [0:58]. Позже он перешел в AWS, где руководил сервисами Big Data и ML, пройдя путь от создания узкоспециализированных решений до управления облачными вычислениями планетарного масштаба [1:11].

До того как присоединиться к Cohere, Саурабх четыре года работал в Unity, занимаясь компьютерным зрением и симуляциями для робототехники [1:41]. Наблюдая за эволюцией архитектуры Transformer — от GPT-2 к GPT-3 — он понял, что наступил момент для полного погружения в мир LLM [1:56]. В Cohere он работает под руководством сооснователя Эйдана Гомеса, одного из авторов фундаментальной статьи «Attention Is All You Need» [2:10].

Ключевые этапы профессионального пути Баджи:

*   **Amazon:** Разработка распределенных систем для логистики.
*   **AWS:** Масштабирование ML-инфраструктуры и облачных сервисов.
*   **Unity:** Применение ИИ в 3D-движках и симуляциях.
*   **Cohere:** Руководство инженерным департаментом, фокусировка на эффективности моделей и их внедрении в enterprise-среду [2:39].

## 📉 Прагматизм против гигантомании: почему размер не имеет значения
[[JUMP:9:07]]

В то время как индустрия гонится за моделями с триллионами параметров, Саурабх Баджи придерживается стратегии «радикального прагматизма» [9:34]. По его мнению, корпоративным клиентам не нужны самые большие модели — им нужны решения, которые эффективно закрывают конкретные бизнес-задачи [10:02].

Основные аргументы против избыточно масштабных моделей:

1.  **Проблемы с приватностью:** Крупные облачные модели требуют передачи данных на сторону провайдера, что недопустимо для многих банковских или медицинских организаций [10:40].
2.  **Инфраструктурные ограничения:** Модель в 1 триллион параметров невозможно развернуть внутри закрытого контура клиента (on-premise) [11:35].
3.  **Экономическая неэффективность:** Стоимость инференса (вывода) гигантских моделей делает их использование убыточным при массовом внедрении [12:14].

Саурабх утверждает, что Cohere фокусируется на создании моделей, которые обеспечивают высокую производительность в компактном форм-факторе. Это позволяет клиентам запускать ИИ там, где находятся их данные, а не перемещать терабайты чувствительной информации в публичное облако [11:22].

## ⚡ Оптимизация GPU: 50 моделей на одной карте
[[JUMP:6:16]]

Одной из главных проблем современного ИИ является дефицит и дороговизна графических процессоров (GPU). Саурабх отмечает, что в начале пути все просто «бросали ресурсы на проблему», но теперь эффективность использования железа стала критическим фактором [5:14].

Инженеры Cohere разработали метод, позволяющий значительно оптимизировать расходы:

*   **Мультиарендность на уровне GPU:** Благодаря технологиям Cohere, клиенты могут запускать до 50 различных дообученных (fine-tuned) версий модели на одном видеоадаптере [8:54].
*   **Эффективность инференса:** Вместо того чтобы арендовать десятки машин под каждую специфическую задачу, бизнес может использовать один аппаратный юнит для множества процессов, сохраняя при этом гибкость настроек [9:07].

По словам Баджи, это дает клиентам «лучшее из двух миров»: максимальную кастомизацию под свои нужды при минимальных затратах на оборудование [8:54].

## 🔍 RAG и Rerank: данные важнее весов модели
[[JUMP:20:22]]

Для корпоративного сектора технология RAG (Retrieval-Augmented Generation) является более важной, чем предобученные знания модели. Саурабх подчеркивает, что знание модели ограничено датой завершения её обучения [23:08]. Чтобы LLM была полезна в бизнесе, она должна иметь доступ к актуальным внутренним документам компании.

Cohere предлагает двухступенчатый подход к работе с данными:

*   **Embeddings (Векторные представления):** Преобразование текстов компании в формат, понятный машине для семантического поиска [25:24].
*   **Rerank (Переранжирование):** Уникальный продукт Cohere, который позволяет добавить «семантический интеллект» поверх уже существующих поисковых систем компании (например, SharePoint или SQL-баз) всего одной строкой кода [27:03].

Баджи считает, что Rerank — это киллер-фича для enterprise, так как она не требует перестраивать всю IT-архитектуру. Модель просто берет результаты старого поиска и мгновенно поднимает наверх наиболее релевантные ответы, экономя компаниям миллионы долларов на миграции данных [27:43].

## 🛡️ Доверие и галлюцинации: как приручить ИИ
[[JUMP:39:31]]

Саурабх Баджи высказывает неожиданную мысль: по его мнению, галлюцинации — это не баг, а фича LLM, поскольку именно эта способность позволяет моделям быть креативными и предсказывать следующее слово в тексте [39:45]. Однако в бизнесе «творчество» модели должно быть строго ограничено фактами.

Для решения проблемы недоверия Cohere внедряет систему цитирования (citations) [40:41]. Модель не просто выдает ответ, но и подсвечивает конкретные ссылки на документы-источники. По словам Баджи, это вызывает у клиентов «эффект откровения», когда они видят, что ИИ нашел связь между данными, о которой сотрудники даже не подозревали [31:39].

Важные аспекты безопасности:

*   **Изоляция данных:** Cohere гарантирует, что данные клиентов из on-premise или VPC сегментов никогда не попадают обратно в общую модель для переобучения [1:00:28].
*   **Проверка (Verifiability):** Возможность аудита каждого шага рассуждений модели [31:25].
*   **JSON-mode:** Вывод данных в строго структурированном виде для бесшовной интеграции в корпоративный софт [42:59].

## 🤖 Агенты и будущее: от чат-ботов к автономным рабочим процессам
[[JUMP:33:55]]

2023 год Саурабх называет «годом POC» (доказательств концепции), а 2024 — «годом продакшена» [1:09:49]. Он видит будущее не в простых чат-интерфейсах, а в ИИ-агентах, которые могут самостоятельно использовать инструменты и выполнять сложные цепочки действий.

Баджи выделяет три уровня развития технологий:

1.  **Инструкции:** Модели, которые просто отвечают на вопросы.
2.  **Tool Use (Использование инструментов):** Модель сама генерирует поисковые запросы, пишет SQL-код или вызывает API сторонних сервисов [34:25].
3.  **Self-correction (Самокоррекция):** Современные модели Cohere (R и R+) способны понимать, что они ошиблись в рассуждениях, и самостоятельно перестраивать план действий для достижения верного результата [38:07].

По мнению гостя, английский (или любой естественный язык) становится главным языком программирования [1:09:06]. Это позволит демократизировать создание софта: финансовый аналитик сможет настроить себе персонального «цифрового суррогата», который будет работать именно так, как привык этот конкретный человек [1:12:17].

## 🏢 Реальные кейсы: Oracle, Fujitsu и медицина
[[JUMP:1:15:30]]

Сотрудничество с гигантами индустрии показывает реальный масштаб проникновения LLM:

*   **Oracle:** Cohere интегрировала свои модели в десятки приложений экосистемы Fusion и NetSuite — от управления персоналом (HCM) до цепочек поставок и финансов [1:24:46].
*   **Fujitsu:** Совместная разработка специализированной японской модели, которая учитывает культурные особенности и бизнес-этикет, принятый в Японии [55:46].
*   **Медицина:** Использование моделей для обработки колоссального объема онкологических исследований. Саурабх приводит пример, как ИИ помог исследователю найти коллегу из того же института, работающего над аналогичной проблемой в соседнем кабинете, просто проанализировав внутренние публикации [1:21:18].

В завершение Саурабх Баджи подчеркивает, что мы находимся лишь на поверхности айсберга. Ближайшие 12–18 месяцев станут периодом взрывного выхода в свет тех решений, которые компании тайно разрабатывали и тестировали последний год [1:19:03].