Атул Део: «Сырая LLM похожа на умного сотрудника в запертой комнате»

The TWIML AI Podcast 1 тыс. 39 мин 8 мин 31.07.2023
Главное

Стремительное развитие больших языковых моделей (LLM) ставит перед современным бизнесом новые инфраструктурные и стратегические вызовы. В рамках очередного выпуска The TWIML AI Podcast ведущий Сэм Черрингтон обсудил с генеральным менеджером Amazon Bedrock Атулом Део текущее состояние ландшафта генеративного ИИ в корпоративном секторе. Основной фокус беседы был направлен на преодоление разрыва между традиционными методами машинного обучения и новой парадигмой ИИ, а также на архитектурные компромиссы при внедрении моделей в производство.

🔄 Смена парадигмы в корпоративном машинном обучении 0:00

Атул Део, начавший карьеру как разработчик программного обеспечения и имеющий более чем восьмилетний опыт работы в Amazon, отмечает фундаментальный сдвиг в ожиданиях бизнеса. По словам ведущего Сэма Черрингтона, топ-менеджеры компаний часто оказываются ошеломлены сложной технической терминологией и подсознательно «хотят магии» после личного опыта использования потребительских ИИ-сервисов вроде ChatGPT.

Атул Део демистифицирует этот процесс, сравнивая текущую ситуацию с прошлым опытом компаний. Ранее бизнес создавал узкоспециализированные модели под конкретные задачи, будь то выявление мошенничества или построение чат-ботов поддержки. Такой подход требовал точечного согласования бюджетов на уровне вице-президентов, найма ученых-исследователей (data scientists) и ручной разметки данных.

Однако масштабировать эту схему до сотен внутренних кейсов оказалось практически невозможно. Атул Део выделяет ключевые барьеры традиционного ML:

Фундаментальные модели, по мнению эксперта, меняют правила игры благодаря централизованному обучению одной масштабной нейросети на огромных массивах неразмеченных данных. Неразмеченные данные гораздо проще собирать из интернета или проприетарных источников, что избавляет компании от необходимости содержать целую армию разметчиков для простейших операций классификации.

🧠 Как устроены LLM: авторегрессия и базовые возможности 6:00

Несмотря на кажущуюся простоту концепции, процесс создания базовых моделей сопряжен с серьезными вызовами в области гигиены данных и колоссальными требованиями к вычислительным мощностям. На этапе предварительного обучения модель за счет специальных алгоритмов самостоятельно изучает последовательные взаимосвязи между словами. По сути, нейросеть предсказывает следующее наиболее вероятное слово на основе предыдущего текстового контекста.

Этот процесс Атул Део называет авторегрессионным поведением, при котором каждый сгенерированный фрагмент ответа становится частью входных данных для предсказания последующих элементов. В результате предварительного обучения компания получает систему, которая прямо из коробки способна решать широкий спектр лингвистических задач:

Вместо создания таких систем с нуля предприятия могут брать готовые решения, обученные крупными игроками (например, собственное семейство моделей Titan от Amazon или разработки их партнера Anthropic), и адаптировать их под свои нужды. Атул Део подчеркивает, что кастомизация может происходить как с изменением весов модели (полноразмерное или эффективное дообучение через LoRA, обучение с подкреплением на основе отзывов людей — RLHF), так и без прямого вмешательства в структуру сети.

🛠️ Стратегии адаптации: промпт-инжиниринг и контекстное обучение 9:11

Чтобы проиллюстрировать ограничения «сырых» предобученных моделей, Атул Део приводит аналогию: если компания наймет чрезвычайно умного сотрудника со стороны, но закроет его в конференц-зале без доступа к внутренним документам и корпоративным системам, этот сотрудник будет абсолютно неэффективен. Чтобы LLM приносила реальную пользу бизнесу, ее необходимо наделить инструментами и доступом к корпоративным источникам знаний.

Самым простым способом взаимодействия без изменения внутренних весов модели является промпт-инжиниринг с использованием натурального языка. Гость подкаста выделяет два основных режима работы:

Возможности контекстного обучения напрямую зависят от архитектурного лимита «окна контекста» модели. Так, компания Anthropic расширила объем контекста до 100 000 токенов. По мнению Део, это позволяет передавать огромные массивы метаданных и длинные документы без дорогостоящего технического вмешательства в веса нейросети. Развитием этого подхода стала технология RAG (Retrieval-Augmented Generation — извлечение, дополненное генерацией), которая де-факто реализует самый частый запрос корпоративных клиентов: получить аналог ChatGPT, но строго на внутренних данных компании.

🗄️ Анатомия архитектуры RAG и семантический поиск 13:23

Построение надежной RAG-системы на базе корпоративной базы знаний на сегодняшний день состоит из нескольких последовательных этапов, которые Атул Део детально описывает:

  1. Чанкинг (Chunking): исходные корпоративные документы дробятся на логические небольшие фрагменты, строки или параграфы.
  2. Генерация эмбеддингов: полученные текстовые чанки пропускаются через специализированную модель эмбеддингов, которая преобразует текст в математические векторные представления, кодирующие семантический смысл информации.
  3. Сохранение в векторную базу данных: векторы сохраняются в специализированных хранилищах, таких как Pinecone, Weaviate или OpenSearch.

При поступлении пользовательского запроса (например, «какова политика отпусков для штатного сотрудника») система преобразует его в эмбеддинг, находит математически близкие векторы в базе данных, извлекает исходные текстовые чанки и отправляет их вместе с запросом в контекстное окно большой языковой модели. На основе этих данных LLM формирует естественный, человекоподобный ответ.

Атул Део подчеркивает, что комбинация генеративных моделей и моделей эмбеддингов фактически переизобретает концепцию семантического поиска, радикально превосходящую традиционный поиск по ключевым словам. Модели эмбеддингов незаслуженно обделены вниманием в публичном пространстве, хотя они крайне эффективны для таких бизнес-задач, как кластеризация данных и выявление аномалий.

🤖 Агенты, концепция ReAct и автономные действия 17:24

На масштабных корпоративных объемах компании сталкиваются с нежеланием погружаться в тонкости настройки векторных баз и администрирования сложных пайплайнов. Гораздо более перспективным трендом последних месяцев Атул Део считает развитие фреймворка ReAct (Reasoning and Action — рассуждение и действие). Эта концепция позволяет ИИ-модели не просто генерировать текст, но и вызывать внешние API, опираясь на свои логические способности.

В рамках такой архитектуры администратор создает ИИ-агента, описывая на обычном английском языке доступные ему ресурсы, типы API, их параметры и ожидаемые результаты работы. Процесс выполнения запроса происходит рекурсивно:

Подобный цикл генерации промптов «на лету» позволяет агенту самостоятельно декомпозировать сложные цели на отдельные задачи. По мнению гостя, именно эта логика лежит в основе популярного феномена Auto-GPT, который открывает колоссальные возможности при интеграции ИИ-агентов с инструментами веб-поиска.

💰 Экономика ИИ: контекст против тонкой настройки (Fine-Tuning) 21:35

Выбор между использованием гигантских контекстных окон и тонкой настройкой моделей (fine-tuning) упирается в параметры стоимости, задержки (latency) и точности. По мнению Атула Део, компаниям с высокой чувствительностью к затратам зачастую выгоднее взять меньшую, но оптимизированную под конкретную задачу модель и дообучить ее на проприетарных данных.

Для чистого контекстного обучения (например, в стиле Auto-GPT) требуются сверхкрупные базовые модели, способные удерживать огромные спецификации API и историю итераций. Хостинг таких систем обходится дорого из-за жестких требований к аппаратному обеспечению инференса.

Атул Део указывает, что единого консенсуса в индустрии пока нет: часть клиентов будет опираться исключительно на парадигму больших контекстных окон, тогда как другие предпочтут тонкую настройку (включая легковесные методы вроде LoRA) для минимизации задержек и стоимости эксплуатации. Окончательное решение всегда зависит от специфики конкретного бизнес-кейса.

⚙️ Продакшен и LLMOps: галлюцинации, оценка и жизненный цикл моделей 24:27

Существующая экосистема MLOps частично сохраняет актуальность в мире генеративного ИИ, однако инструментарий требует серьезного переосмысления. Например, для проведения A/B-тестирования различных версий дообученных моделей платформа Bedrock интегрирована с решением SageMaker Experiments, что позволяет оценивать качество ответов систем в реальном времени перед развертыванием в продакшене. Бизнесу также необходимы автоматизированные пайплайны для периодического обновления моделей по мере накопления критического объема новых данных.

Главная сложность LLMOps, по мнению Део, заключается в неструктурированной и субъективной природе промптов и ответов ИИ. В отличие от классического ML с бинарными исходами, оценка качества текстовой суммаризации сильно зависит от человеческого суждения.

Другим серьезным барьером остаются галлюцинации моделей. Атул Део упоминает случай с юристом, который использовал LLM для подготовки к суду, а модель полностью выдумала прецеденты и судебные дела в своем ответе. Для снижения этих рисков разработчики применяют два подхода:

При этом Атул Део предостерегает от крайностей: если заставить модель следовать строго букве предоставленного документа, сотрется грань между генеративным ИИ и обычным поисковым движком. В системе необходимо оставлять контролируемый уровень креативности.

☁️ Архитектура Amazon Bedrock: серверлесс-подход и аппаратная база 29:19

Платформа Amazon Bedrock создавалась как инструмент, избавляющий разработчиков от необходимости понимать тонкости инфраструктуры, сетевой топологии или настройки эндпоинтов. Это полностью управляемый serverless-сервис, доступный через простой API, где оплата происходит пофактурно за количество обработанных токенов.

Атул Део выделяет ключевые дифференциаторы Bedrock:

Отдельной долгосрочной проблемой Атул Део называет управление жизненным циклом кастомизированных систем. Поскольку при fine-tuning создается замороженная копия весов, будущие обновления базовой модели (например, переход с версии v1 на v2) не будут автоматически переноситься в кастомную модель-. Компании будут вынуждены выстраивать автоматизированные пайплайны для регулярного переобучения своих систем на актуальных версиях базовых сетей. В настоящее время Bedrock находится на стадии превью, и команда активно работает над расширением комплаенс-сертификаций для энтерпрайз-рынка.

💬 Цитаты

«Сырая предобученная LLM похожа на очень умного сотрудника со стороны, которого закрыли в конференц-зале без доступа к системам.»

«Если вы будете строго следовать сценарию, то разница между генеративной моделью и обычным поиском исчезнет.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval-Augmented Generation)
Метод ограничения и дополнения генерации ИИ путем подмешивания релевантных документов в контекст запроса.
Эмбеддинг
Математическое представление текста в виде вектора, отражающего его семантический смысл.
Авторегрессия
Процесс генерации текста, при котором каждое новое слово предсказывается на основе ранее сгенерированных слов.
LoRA
Метод низкоранговой адаптации, позволяющий проводить легковесную и экономичную тонкую настройку ИИ-моделей.
📊 Цифры
🗓 Хронология
  1. 2013 год Период, когда проблема нехватки экспертов в машинном обучении и сложности разметки данных уже была актуальна.
  2. 2023 год Текущий момент обсуждения подкаста, когда дефицит ML-специалистов сохраняется, несмотря на развитие технологий.
⚖️ Другая сторона
Искусственный интеллект Amazon Bedrock Архитектура RAG Тонкая настройка LLM Атул Део