Саурабх Баджи из Cohere: как прагматичный подход к LLM меняет правила игры в enterprise

Machine Learning Street Talk 6,8 тыс. 1 ч 30 мин 5 мин 12.09.2024
Главное

Внедрение больших языковых моделей (LLM) в корпоративный сектор — это не просто вопрос «подключения» API, а сложнейшая инженерная задача, требующая прагматичного подхода к инфраструктуре и безопасности. В новом выпуске Machine Learning Street Talk Саурабх Баджи, старший вице-президент по инженерии в Cohere, рассказывает, как его компания превращает «магию» ИИ в надежный инструмент для гигантов вроде Oracle и Fujitsu.

🛠️ От Amazon до Cohere: путь инженера больших систем 0:00

Саурабх Баджи пришел в индустрию около 20 лет назад . Свою карьеру он начинал в Amazon (Сиэтл), где еще до появления Amazon Prime занимался предсказанием времени доставки товаров с помощью машинного обучения . Позже он перешел в AWS, где руководил сервисами Big Data и ML, пройдя путь от создания узкоспециализированных решений до управления облачными вычислениями планетарного масштаба .

До того как присоединиться к Cohere, Саурабх четыре года работал в Unity, занимаясь компьютерным зрением и симуляциями для робототехники . Наблюдая за эволюцией архитектуры Transformer — от GPT-2 к GPT-3 — он понял, что наступил момент для полного погружения в мир LLM . В Cohere он работает под руководством сооснователя Эйдана Гомеса, одного из авторов фундаментальной статьи «Attention Is All You Need» .

Ключевые этапы профессионального пути Баджи:

📉 Прагматизм против гигантомании: почему размер не имеет значения 9:07

В то время как индустрия гонится за моделями с триллионами параметров, Саурабх Баджи придерживается стратегии «радикального прагматизма» . По его мнению, корпоративным клиентам не нужны самые большие модели — им нужны решения, которые эффективно закрывают конкретные бизнес-задачи .

Основные аргументы против избыточно масштабных моделей:

  1. Проблемы с приватностью: Крупные облачные модели требуют передачи данных на сторону провайдера, что недопустимо для многих банковских или медицинских организаций .
  2. Инфраструктурные ограничения: Модель в 1 триллион параметров невозможно развернуть внутри закрытого контура клиента (on-premise) .
  3. Экономическая неэффективность: Стоимость инференса (вывода) гигантских моделей делает их использование убыточным при массовом внедрении .

Саурабх утверждает, что Cohere фокусируется на создании моделей, которые обеспечивают высокую производительность в компактном форм-факторе. Это позволяет клиентам запускать ИИ там, где находятся их данные, а не перемещать терабайты чувствительной информации в публичное облако .

⚡ Оптимизация GPU: 50 моделей на одной карте 6:16

Одной из главных проблем современного ИИ является дефицит и дороговизна графических процессоров (GPU). Саурабх отмечает, что в начале пути все просто «бросали ресурсы на проблему», но теперь эффективность использования железа стала критическим фактором .

Инженеры Cohere разработали метод, позволяющий значительно оптимизировать расходы:

По словам Баджи, это дает клиентам «лучшее из двух миров»: максимальную кастомизацию под свои нужды при минимальных затратах на оборудование .

🔍 RAG и Rerank: данные важнее весов модели 20:22

Для корпоративного сектора технология RAG (Retrieval-Augmented Generation) является более важной, чем предобученные знания модели. Саурабх подчеркивает, что знание модели ограничено датой завершения её обучения . Чтобы LLM была полезна в бизнесе, она должна иметь доступ к актуальным внутренним документам компании.

Cohere предлагает двухступенчатый подход к работе с данными:

Баджи считает, что Rerank — это киллер-фича для enterprise, так как она не требует перестраивать всю IT-архитектуру. Модель просто берет результаты старого поиска и мгновенно поднимает наверх наиболее релевантные ответы, экономя компаниям миллионы долларов на миграции данных .

🛡️ Доверие и галлюцинации: как приручить ИИ 39:31

Саурабх Баджи высказывает неожиданную мысль: по его мнению, галлюцинации — это не баг, а фича LLM, поскольку именно эта способность позволяет моделям быть креативными и предсказывать следующее слово в тексте . Однако в бизнесе «творчество» модели должно быть строго ограничено фактами.

Для решения проблемы недоверия Cohere внедряет систему цитирования (citations) . Модель не просто выдает ответ, но и подсвечивает конкретные ссылки на документы-источники. По словам Баджи, это вызывает у клиентов «эффект откровения», когда они видят, что ИИ нашел связь между данными, о которой сотрудники даже не подозревали .

Важные аспекты безопасности:

🤖 Агенты и будущее: от чат-ботов к автономным рабочим процессам 33:55

2023 год Саурабх называет «годом POC» (доказательств концепции), а 2024 — «годом продакшена» . Он видит будущее не в простых чат-интерфейсах, а в ИИ-агентах, которые могут самостоятельно использовать инструменты и выполнять сложные цепочки действий.

Баджи выделяет три уровня развития технологий:

  1. Инструкции: Модели, которые просто отвечают на вопросы.
  2. Tool Use (Использование инструментов): Модель сама генерирует поисковые запросы, пишет SQL-код или вызывает API сторонних сервисов .
  3. Self-correction (Самокоррекция): Современные модели Cohere (R и R+) способны понимать, что они ошиблись в рассуждениях, и самостоятельно перестраивать план действий для достижения верного результата .

По мнению гостя, английский (или любой естественный язык) становится главным языком программирования . Это позволит демократизировать создание софта: финансовый аналитик сможет настроить себе персонального «цифрового суррогата», который будет работать именно так, как привык этот конкретный человек .

🏢 Реальные кейсы: Oracle, Fujitsu и медицина 1:15:30

Сотрудничество с гигантами индустрии показывает реальный масштаб проникновения LLM:

В завершение Саурабх Баджи подчеркивает, что мы находимся лишь на поверхности айсберга. Ближайшие 12–18 месяцев станут периодом взрывного выхода в свет тех решений, которые компании тайно разрабатывали и тестировали последний год .

💬 Цитаты

«Галлюцинации — это фича, а не баг. Модель просто выдает наиболее вероятный текст, она не знает разницы между правдой и ложью.»

Саурабх Баджи 39:45

«Английский язык теперь является лучшим языком программирования. Мы перешли от обучения людей языку компьютеров к обучению компьютеров языку людей.»

Саурабх Баджи 1:09:06
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval-Augmented Generation)
Метод, при котором модель ИИ ищет информацию во внешних источниках перед тем, как сгенерировать ответ.
Rerank
Алгоритм, который переупорядочивает результаты поиска, выбирая наиболее релевантные по смыслу, а не по ключевым словам.
Inference
Процесс использования обученной модели для получения предсказаний или ответов на запросы.
📊 Цифры
🗓 Хронология
  1. 2022 Саурабх Баджи присоединяется к команде Cohere.
  2. 2023 Год доказательств концепции (POC) и начало партнерства с Oracle.
  3. 2024 Год массового внедрения (Production) ИИ-агентов в бизнес-процессы.
⚖️ Другая сторона
Искусственный интеллект Cohere RAG Saurabh Baji Oracle Rerank