Джей Эмери: как эффективно внедрять LLM в бизнес-процессы

The TWIML AI Podcast 1,1 тыс. 51 мин 2 мин 28.11.2023
Главное

Стратегии разработки и масштабирования LLM-приложений: опыт Microsoft Azure 0:00

Джей Эмери, директор по техническим продажам и архитектуре в Microsoft Azure, в беседе с Сэмом Чарингтоном в подкасте The TWIML AI Podcast обсудил ключевые вызовы, с которыми сталкиваются компании при создании приложений на основе больших языковых моделей (LLM). Дискуссия охватила вопросы безопасности данных, подходы к оптимизации промптов, стратегию выбора моделей и методы управления расходами в облачной инфраструктуре.

🛡️ Безопасность, конфиденциальность и мифы вокруг данных 8:39

Одной из главных проблем при внедрении генеративного ИИ в бизнесе остаются опасения по поводу конфиденциальности данных и защиты интеллектуальной собственности (IP). Джей Эмери отмечает, что многие стартапы опасаются, что их проприетарная информация может быть использована для дообучения моделей, что, по его словам, является распространенным заблуждением.

🏗️ Методы повышения эффективности LLM-приложений 12:40

Для достижения бизнес-результатов недостаточно просто внедрить чат-бота; компании переходят к интеграции моделей в существующие бизнес-процессы. Джей Эмери выделяет три ключевых подхода:

Промпт-инжиниринг и «цепочки» 13:35

Использование промптов, где выходные данные одной задачи становятся входными для следующей, позволяет получать более точные и сложные результаты. Инструменты вроде Azure Prompt Flow позволяют визуально строить рабочие процессы, комбинируя различные модели, например, используя возможности Hugging Face совместно с GPT-4. Важным приемом является использование «промпт-вариантов» (prompt variants), когда система генерирует несколько способов постановки одного и того же вопроса, помогая выбрать наиболее эффективный.

Дообучение (Fine-tuning) 21:12

Многие компании ошибочно считают дообучение обязательным этапом, хотя современные модели с большими контекстными окнами (до 128 000 токенов) часто справляются с задачами через обычный промптинг. Дообучение оправдано при необходимости «обучить» модель специфическому доменному языку, который не меняется со временем.

RAG (Retrieval Augmented Generation) 24:50

Технология RAG позволяет моделям обращаться к внешним корпусам проприетарных данных компании, что делает ответы более контекстными и актуальными без необходимости постоянного переобучения модели. Стартапы используют этот метод для создания корпоративных баз знаний, автоматизации продаж и даже анализа качества переговоров на основе транскриптов встреч.

⚡ Оптимизация производительности и затрат 30:52

Работа с LLM требует эффективного управления задержками (latency) и расходами на вычисления. Джей Эмери подчеркивает, что простое увеличение мощности оборудования не всегда является решением.

Для контроля затрат эксперт рекомендует подходить к LLM как к системе управления токенами: максимально эффективное использование коротких контекстов и отказ от «избыточных» запросов к самым дорогим моделям являются ключевыми навыками современных ML-инженеров.

💬 Цитаты

«Если бы вы использовали только один процессор Intel для обработки одного запроса GPT-4, это могло бы занять 39 часов.»

Джей Эмери 31:45

«Это не столько управление затратами, сколько управление токенами, так как токены — это валюта, которую используют LLM.»

Джей Эмери 44:45
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
LLM
Большие языковые модели, обученные на огромных массивах текста.
RAG (Retrieval Augmented Generation)
Метод генерации ответов, при котором модель предварительно ищет информацию во внешней базе данных.
PTU (Provisioned Throughput Units)
Единицы пропускной способности, позволяющие зарезервировать вычислительную мощность для гарантированной производительности.
Инференс
Процесс использования уже обученной модели для получения предсказаний или ответов.
Токен
Единица измерения объема данных в LLM; модель обрабатывает текст, разбивая его на токены.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Azure OpenAI Azure Prompt Flow Retrieval Augmented Generation GPT-4 LLM