Внедрение больших языковых моделей (LLM) в корпоративный сектор — это не просто вопрос «подключения» API, а сложнейшая инженерная задача, требующая прагматичного подхода к инфраструктуре и безопасности. В новом выпуске Machine Learning Street Talk Саурабх Баджи, старший вице-президент по инженерии в Cohere, рассказывает, как его компания превращает «магию» ИИ в надежный инструмент для гигантов вроде Oracle и Fujitsu.
🛠️ От Amazon до Cohere: путь инженера больших систем 0:00
Саурабх Баджи пришел в индустрию около 20 лет назад . Свою карьеру он начинал в Amazon (Сиэтл), где еще до появления Amazon Prime занимался предсказанием времени доставки товаров с помощью машинного обучения . Позже он перешел в AWS, где руководил сервисами Big Data и ML, пройдя путь от создания узкоспециализированных решений до управления облачными вычислениями планетарного масштаба .
До того как присоединиться к Cohere, Саурабх четыре года работал в Unity, занимаясь компьютерным зрением и симуляциями для робототехники . Наблюдая за эволюцией архитектуры Transformer — от GPT-2 к GPT-3 — он понял, что наступил момент для полного погружения в мир LLM . В Cohere он работает под руководством сооснователя Эйдана Гомеса, одного из авторов фундаментальной статьи «Attention Is All You Need» .
Ключевые этапы профессионального пути Баджи:
- Amazon: Разработка распределенных систем для логистики.
- AWS: Масштабирование ML-инфраструктуры и облачных сервисов.
- Unity: Применение ИИ в 3D-движках и симуляциях.
- Cohere: Руководство инженерным департаментом, фокусировка на эффективности моделей и их внедрении в enterprise-среду .
📉 Прагматизм против гигантомании: почему размер не имеет значения 9:07
В то время как индустрия гонится за моделями с триллионами параметров, Саурабх Баджи придерживается стратегии «радикального прагматизма» . По его мнению, корпоративным клиентам не нужны самые большие модели — им нужны решения, которые эффективно закрывают конкретные бизнес-задачи .
Основные аргументы против избыточно масштабных моделей:
- Проблемы с приватностью: Крупные облачные модели требуют передачи данных на сторону провайдера, что недопустимо для многих банковских или медицинских организаций .
- Инфраструктурные ограничения: Модель в 1 триллион параметров невозможно развернуть внутри закрытого контура клиента (on-premise) .
- Экономическая неэффективность: Стоимость инференса (вывода) гигантских моделей делает их использование убыточным при массовом внедрении .
Саурабх утверждает, что Cohere фокусируется на создании моделей, которые обеспечивают высокую производительность в компактном форм-факторе. Это позволяет клиентам запускать ИИ там, где находятся их данные, а не перемещать терабайты чувствительной информации в публичное облако .
⚡ Оптимизация GPU: 50 моделей на одной карте 6:16
Одной из главных проблем современного ИИ является дефицит и дороговизна графических процессоров (GPU). Саурабх отмечает, что в начале пути все просто «бросали ресурсы на проблему», но теперь эффективность использования железа стала критическим фактором .
Инженеры Cohere разработали метод, позволяющий значительно оптимизировать расходы:
- Мультиарендность на уровне GPU: Благодаря технологиям Cohere, клиенты могут запускать до 50 различных дообученных (fine-tuned) версий модели на одном видеоадаптере .
- Эффективность инференса: Вместо того чтобы арендовать десятки машин под каждую специфическую задачу, бизнес может использовать один аппаратный юнит для множества процессов, сохраняя при этом гибкость настроек .
По словам Баджи, это дает клиентам «лучшее из двух миров»: максимальную кастомизацию под свои нужды при минимальных затратах на оборудование .
🔍 RAG и Rerank: данные важнее весов модели 20:22
Для корпоративного сектора технология RAG (Retrieval-Augmented Generation) является более важной, чем предобученные знания модели. Саурабх подчеркивает, что знание модели ограничено датой завершения её обучения . Чтобы LLM была полезна в бизнесе, она должна иметь доступ к актуальным внутренним документам компании.
Cohere предлагает двухступенчатый подход к работе с данными:
- Embeddings (Векторные представления): Преобразование текстов компании в формат, понятный машине для семантического поиска .
- Rerank (Переранжирование): Уникальный продукт Cohere, который позволяет добавить «семантический интеллект» поверх уже существующих поисковых систем компании (например, SharePoint или SQL-баз) всего одной строкой кода .
Баджи считает, что Rerank — это киллер-фича для enterprise, так как она не требует перестраивать всю IT-архитектуру. Модель просто берет результаты старого поиска и мгновенно поднимает наверх наиболее релевантные ответы, экономя компаниям миллионы долларов на миграции данных .
🛡️ Доверие и галлюцинации: как приручить ИИ 39:31
Саурабх Баджи высказывает неожиданную мысль: по его мнению, галлюцинации — это не баг, а фича LLM, поскольку именно эта способность позволяет моделям быть креативными и предсказывать следующее слово в тексте . Однако в бизнесе «творчество» модели должно быть строго ограничено фактами.
Для решения проблемы недоверия Cohere внедряет систему цитирования (citations) . Модель не просто выдает ответ, но и подсвечивает конкретные ссылки на документы-источники. По словам Баджи, это вызывает у клиентов «эффект откровения», когда они видят, что ИИ нашел связь между данными, о которой сотрудники даже не подозревали .
Важные аспекты безопасности:
- Изоляция данных: Cohere гарантирует, что данные клиентов из on-premise или VPC сегментов никогда не попадают обратно в общую модель для переобучения .
- Проверка (Verifiability): Возможность аудита каждого шага рассуждений модели .
- JSON-mode: Вывод данных в строго структурированном виде для бесшовной интеграции в корпоративный софт .
🤖 Агенты и будущее: от чат-ботов к автономным рабочим процессам 33:55
2023 год Саурабх называет «годом POC» (доказательств концепции), а 2024 — «годом продакшена» . Он видит будущее не в простых чат-интерфейсах, а в ИИ-агентах, которые могут самостоятельно использовать инструменты и выполнять сложные цепочки действий.
Баджи выделяет три уровня развития технологий:
- Инструкции: Модели, которые просто отвечают на вопросы.
- Tool Use (Использование инструментов): Модель сама генерирует поисковые запросы, пишет SQL-код или вызывает API сторонних сервисов .
- Self-correction (Самокоррекция): Современные модели Cohere (R и R+) способны понимать, что они ошиблись в рассуждениях, и самостоятельно перестраивать план действий для достижения верного результата .
По мнению гостя, английский (или любой естественный язык) становится главным языком программирования . Это позволит демократизировать создание софта: финансовый аналитик сможет настроить себе персонального «цифрового суррогата», который будет работать именно так, как привык этот конкретный человек .
🏢 Реальные кейсы: Oracle, Fujitsu и медицина 1:15:30
Сотрудничество с гигантами индустрии показывает реальный масштаб проникновения LLM:
- Oracle: Cohere интегрировала свои модели в десятки приложений экосистемы Fusion и NetSuite — от управления персоналом (HCM) до цепочек поставок и финансов .
- Fujitsu: Совместная разработка специализированной японской модели, которая учитывает культурные особенности и бизнес-этикет, принятый в Японии .
- Медицина: Использование моделей для обработки колоссального объема онкологических исследований. Саурабх приводит пример, как ИИ помог исследователю найти коллегу из того же института, работающего над аналогичной проблемой в соседнем кабинете, просто проанализировав внутренние публикации .
В завершение Саурабх Баджи подчеркивает, что мы находимся лишь на поверхности айсберга. Ближайшие 12–18 месяцев станут периодом взрывного выхода в свет тех решений, которые компании тайно разрабатывали и тестировали последний год .