Как адаптировать LLM: от обучения инструкциям до RAG

MIT OpenCourseWare 9,8 тыс. 1 ч 17 мин 2 мин 07.01.2026
Главное

💡 Адаптация нейросетей: Техники настройки LLM 0:00

Большие языковые модели (LLM), такие как GPT-3, проходят путь от простых автодополнителей текста до интеллектуальных чат-ботов вроде ChatGPT благодаря последовательной настройке. В этой статье мы разберем, как именно происходит этот процесс: от обучения на огромных массивах данных до узкоспециализированной донастройки под бизнес-задачи.

🏗️ Путь от базовой модели к InstructGPT 2:02

Изначально такие модели, как GPT-3, обучались исключительно на предсказание следующего слова. Несмотря на способность генерировать связный текст, они часто выдавали нерелевантные или «галлюцинирующие» ответы.

ChatGPT стал результатом того же процесса, но с обучением на последовательных диалоговых цепочках, что позволяет ему поддерживать контекст беседы.

🛠️ Инструментарий: от Zero-shot до RAG 30:04

Для адаптации модели под узкие бизнес-задачи без изменения её внутренних весов используются следующие техники:

  1. Zero-shot prompting: Модель выполняет задачу без предварительных примеров, основываясь на инструкциях в промпте.
  2. Few-shot prompting: В промпт добавляются 2–3 примера, задающих нужный формат и стиль.
  3. Retrieval-Augmented Generation (RAG): Самый востребованный в бизнесе метод. Поскольку контекстное окно LLM ограничено, невозможно «скормить» ей всю базу знаний. RAG решает эту проблему так:
    • Все документы компании разбиваются на фрагменты (chunks).
    • Для каждого фрагмента вычисляется контекстный эмбеддинг (векторное представление).
    • При запросе пользователя система находит 3–5 наиболее релевантных фрагментов через косинусное сходство.
    • Только эти фрагменты добавляются в промпт к LLM как «контекст».

⚙️ Тонкая настройка: LoRA и эффективность

Fine-tuning — это процесс изменения внутренних весов модели для глубокой специализации. Настройка огромных моделей вроде Llama-2 (70 млрд параметров) требует колоссальных ресурсов: от 6–7 GPU типа A100/H100.

Для демократизации процесса используется Low-Rank Adaptation (LoRA):

💬 Цитаты

«Если вы не уверены, кто является продуктом, то продукт — это вы.»

Рама Рамакришнан 11:48

«Retrieval Augmented Generation — это, на мой взгляд, самое распространенное бизнес-приложение LLM на сегодняшний день.»

Рама Рамакришнан 42:45
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Контекстное окно
Максимальное количество токенов (входящих + исходящих), которое модель может обработать за один запрос.
Эмбеддинг
Векторное представление текста, позволяющее измерять семантическую близость смыслов.
Галлюцинации
Ситуация, когда модель выдает уверенный, но фактологически неверный ответ.
Косинусное сходство
Математический метод определения близости двух векторов, используемый для поиска релевантных данных в RAG.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект LLM Generative AI Parameter-Efficient Fine-Tuning RAG LoRA