# Джей Эмери: как эффективно внедрять LLM в бизнес-процессы

Источник: https://www.youtube.com/watch?v=Pm3r6jDn-lY
Канал: The TWIML AI Podcast
Опубликовано: 28.11.2023

---

## Стратегии разработки и масштабирования LLM-приложений: опыт Microsoft Azure

[[JUMP:0:00]]

Джей Эмери, директор по техническим продажам и архитектуре в Microsoft Azure, в беседе с Сэмом Чарингтоном в подкасте The TWIML AI Podcast обсудил ключевые вызовы, с которыми сталкиваются компании при создании приложений на основе больших языковых моделей (LLM). Дискуссия охватила вопросы безопасности данных, подходы к оптимизации промптов, стратегию выбора моделей и методы управления расходами в облачной инфраструктуре.

## 🛡️ Безопасность, конфиденциальность и мифы вокруг данных
[[JUMP:8:39]]

Одной из главных проблем при внедрении генеративного ИИ в бизнесе остаются опасения по поводу конфиденциальности данных и защиты интеллектуальной собственности (IP). Джей Эмери отмечает, что многие стартапы опасаются, что их проприетарная информация может быть использована для дообучения моделей, что, по его словам, является распространенным заблуждением.

*   **Принципы обработки:** Модели, такие как GPT-3.5 Turbo, не сохраняют входные данные для обучения на постоянном носителе. Данные обрабатываются в оперативной памяти во время сессии и удаляются после её завершения.
*   **Контентная модерация:** Microsoft применяет системы фильтрации для выявления насилия, ненависти или сексуального контента. Пользователи могут настраивать или отключать эти механизмы, особенно при работе с чувствительными данными, такими как медицинские записи (Health Data) или персональная идентификационная информация (PII).

## 🏗️ Методы повышения эффективности LLM-приложений
[[JUMP:12:40]]

Для достижения бизнес-результатов недостаточно просто внедрить чат-бота; компании переходят к интеграции моделей в существующие бизнес-процессы. Джей Эмери выделяет три ключевых подхода:

### Промпт-инжиниринг и «цепочки»
[[JUMP:13:35]]

Использование промптов, где выходные данные одной задачи становятся входными для следующей, позволяет получать более точные и сложные результаты. Инструменты вроде **Azure Prompt Flow** позволяют визуально строить рабочие процессы, комбинируя различные модели, например, используя возможности Hugging Face совместно с GPT-4. Важным приемом является использование «промпт-вариантов» (prompt variants), когда система генерирует несколько способов постановки одного и того же вопроса, помогая выбрать наиболее эффективный.

### Дообучение (Fine-tuning)
[[JUMP:21:12]]

Многие компании ошибочно считают дообучение обязательным этапом, хотя современные модели с большими контекстными окнами (до 128 000 токенов) часто справляются с задачами через обычный промптинг. Дообучение оправдано при необходимости «обучить» модель специфическому доменному языку, который не меняется со временем.

### RAG (Retrieval Augmented Generation)
[[JUMP:24:50]]

Технология RAG позволяет моделям обращаться к внешним корпусам проприетарных данных компании, что делает ответы более контекстными и актуальными без необходимости постоянного переобучения модели. Стартапы используют этот метод для создания корпоративных баз знаний, автоматизации продаж и даже анализа качества переговоров на основе транскриптов встреч.

## ⚡ Оптимизация производительности и затрат
[[JUMP:30:52]]

Работа с LLM требует эффективного управления задержками (latency) и расходами на вычисления. Джей Эмери подчеркивает, что простое увеличение мощности оборудования не всегда является решением.

*   **Выбор модели:** Не каждая задача требует ресурсов GPT-4; использование моделей меньшего размера (например, GPT-3.5) позволяет существенно экономить средства и сокращать время ответа.
*   **Параллелизация:** Разбиение нагрузки между регионами и последующая постобработка результатов помогают максимизировать пропускную способность.
*   **PTU (Provisioned Throughput Units):** Это механизм резервирования вычислительной мощности, позволяющий избежать влияния других пользователей («эффект шумного соседа») и гарантировать предсказуемую задержку.

Для контроля затрат эксперт рекомендует подходить к LLM как к системе управления токенами: максимально эффективное использование коротких контекстов и отказ от «избыточных» запросов к самым дорогим моделям являются ключевыми навыками современных ML-инженеров.