Гайд по RAG и MCP: как соединить ИИ с вашими данными и инструментами

freeCodeCamp.org 137 тыс. 1 ч 39 мин 4 мин 22.01.2026
Главное

Этот практический курс от freeCodeCamp.org посвящен созданию интегрированных ИИ-систем, выходящих за рамки простых чат-ботов. В центре внимания две ключевые технологии: RAG (Retrieval-Augmented Generation — генерация с дополненной выборкой) и MCP (Model Context Protocol). Ведущий курса объясняет, как RAG позволяет моделям работать с вашими частными данными, а MCP — координировать действия между различными программными компонентами.

🧠 Основы RAG: Когда «памяти» модели недостаточно 0:00

Большие языковые модели (LLM), такие как ChatGPT, ограничены данными, на которых они обучались. Если спросить модель о внутреннем регламенте вашей компании, она либо выдаст общую информацию, либо начнет галлюцинировать . Простейший способ решить это вручную: скопировать нужный документ и вставить его в промпт. Это и есть суть RAG в миниатюре .

Полноценная RAG-система автоматизирует этот процесс и состоит из трех этапов:

  1. Retrieval (Поиск): Система сама находит релевантные фрагменты в базе документов.
  2. Augmentation (Дополнение): Найденная информация добавляется в запрос к ИИ.
  3. Generation (Генерация): Модель выдает точный ответ, опираясь на предоставленный контекст .

Когда использовать RAG, а когда — Fine-tuning?

Многие ошибочно полагают, что для «обучения» модели новым знаниям нужно дообучение (Fine-tuning). Ведущий приводит четкое разграничение:

🔍 Механика поиска: От ключевых слов к смыслам 8:27

Чтобы система нашла нужный документ, используются два подхода: ключевой поиск и семантический поиск.

Традиционный поиск (Keyword Search)

Самые популярные методы здесь — TF-IDF и BM25 . Они подсчитывают частоту слов в документах.

Семантический поиск и эмбеддинги

Семантический поиск понимает смысл. Это становится возможным благодаря эмбеддингам — преобразованию текста в математические векторы (наборы чисел) в многомерном пространстве .

Для этого используются специализированные модели, такие как all-miniLM-L6-v2. В отличие от гигантской GPT-4 с её 1,8 трлн параметров, эта модель имеет всего 22 млн параметров и весит около 90 МБ . Это позволяет запускать её локально на ноутбуке для мгновенного превращения текстов в координаты. Похожие по смыслу фразы («собаки в офисе» и «домашние животные на работе») в этом пространстве будут находиться близко друг к другу .

🗄️ Векторные базы данных и искусство чанкинга 30:58

Когда документов тысячи, сравнивать запрос с каждым из них слишком долго. Векторные базы данных (Chroma, Pinecone, Weaviate) решают эту проблему с помощью индексации, например алгоритма HNSW . Он организует векторы в «соседства», позволяя искать только среди похожих объектов .

Проблема «длинных документов» (Chunking)

Нельзя загрузить 50-страничный справочник целиком: ответ будет слишком размытым . Документы нужно разбивать на части — чанки.

🛠️ MCP: Универсальный разъем для ИИ 59:40

Model Context Protocol (MCP) — это новый открытый стандарт, предложенный для решения проблемы «зоопарка» API. Раньше для каждого сервиса (Google Drive, Slack, GitHub) приходилось писать уникальный код интеграции . MCP унифицирует это взаимодействие.

Архитектура MCP

Система работает по принципу «клиент-сервер»:

  1. MCP Server: Предоставляет ресурсы (данные), инструменты (функции, которые можно вызвать) и промпты (шаблоны запросов) .
  2. MCP Client: Это может быть IDE (Cursor, VS Code) или ИИ-агент, который подключается к серверу .
  3. Транспорт: Обмен данными идет через JSON-RPC по протоколам HTTP или Standard IO .

Почему это важно для агентов?

ИИ-агенты — это скрипты, которые могут «думать» и принимать решения в цикле . MCP дает им «руки» для взаимодействия с внешним миром. Например, агент через MCP-сервер Stripe может анализировать транзакции, а через сервер GitHub — изучать историю коммитов, объединяя эту информацию для решения бизнес-задач .

🚀 Продакшн: Кэширование и мониторинг 52:54

RAG-системы в реальных условиях могут работать медленно (до 1 секунды на запрос). Чтобы этого избежать, ведущий рекомендует внедрять кэширование на четырех уровнях:

  1. Query Cache: Сохранение пар «вопрос-ответ».
  2. Embedding Cache: Чтобы не пересчитывать векторы для одних и тех же слов.
  3. Vector Search Cache: Результаты поиска в базе.
  4. LLM Response Cache: Самый дорогой и эффективный уровень .

Для мониторинга используются классические IT-инструменты: Prometheus для метрик, Grafana для дашбордов и ELK-стек для логов . Важно отслеживать не только общую скорость, но и специфические метрики, такие как качество выборки (retrieval quality) .


💬 Цитаты

«ИИ-агент — это как ваш старый скрипт автоматизации, только теперь он умеет думать.»

Ведущий freeCodeCamp 1:03:41

«Fine-tuning хорош для стиля общения, но ужасен для работы с динамическими фактами. Для этого есть RAG.»

Ведущий freeCodeCamp 08:01
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Эмбеддинг (Embedding)
Числовое представление смысла текста в виде длинного списка координат.
Чанкинг (Chunking)
Процесс дробления длинного текста на мелкие фрагменты для более точного поиска.
JSON-RPC
Простой протокол удаленного вызова процедур, использующий формат JSON.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект RAG MCP ChromaDB LangChain OpenAI