# Beyond LLM: Стэндфордский гайд по созданию агентных систем в 2025 году

Источник: https://www.youtube.com/watch?v=k1njvbBmfsw
Канал: Stanford Online
Опубликовано: 21.11.2025

---

В рамках курса CS230 по глубокому обучению в Стэндфордском университете прошла лекция, посвященная выходу за пределы «ванильных» языковых моделей. Эксперты Стэндфорда разобрали, как превратить статичные LLM в динамические агентные системы, способные решать сложные бизнес-задачи.

## 🧱 Ограничения базовых моделей и необходимость аугментации
[[JUMP:03:42]]

Использование предобученных моделей, таких как GPT-4, в чистом виде (vanilla LLM) сопряжено с рядом критических ограничений [03:56]:

*   **Разрыв в знаниях (Knowledge Gap):** Модели ограничены датой отсечки тренировочных данных и не знают о событиях, произошедших вчера [05:28].
*   **Галлюцинации:** В таких сферах, как медицина или право, выдуманные факты могут иметь катастрофические последствия [45:33].
*   **Отсутствие контекста:** Окна контекста, хотя и растут, всё ещё ограничены (около 200 000 токенов, что эквивалентно примерно двум книгам), чего недостаточно для анализа огромных корпоративных баз данных [12:35].
*   **Сложность контроля:** Лектор приводит в пример чат-бота Microsoft Tay (2016), который стал «расистским придурком» всего через 16 часов после запуска из-за манипуляций пользователей [08:13].

Для решения этих проблем используется вертикальная ось оптимизации: от промпт-инжиниринга до создания мультиагентных систем [17:42].

## 🧠 Промпт-инжиниринг: от «зеро-шот» до цепочек рассуждений
[[JUMP:18:08]]

Согласно исследованию гарвардских и пенсильванских ученых, консультанты BCG, прошедшие обучение промпт-инжинирингу, показывают результаты выше, чем те, кто просто имеет доступ к ИИ [18:34].

Ключевые техники оптимизации промптов:

1.  **Назначение роли (Persona):** Использование конструкций вида «Act as...» (Действуй как эксперт по возобновляемой энергии) значительно улучшает качество ответа [23:05].
2.  **Few-Shot Prompting:** Предоставление модели нескольких примеров в самом запросе. Это помогает «выровнять» модель под специфический стиль или задачу (например, классификацию тональности отзывов в нишевой индустрии) [28:56].
3.  **Chain of Thought (Цепочка мыслей):** Инструкция «думай шаг за шагом» заставляет модель прописывать логику решения, прежде чем выдать финальный ответ [24:12].
4.  **Chaining (Цепочки промптов):** Разделение одной сложной задачи на последовательность более простых [32:13]. Например, вместо одного запроса на написание письма клиенту:
    *   Шаг 1: Извлечь ключевые проблемы из жалобы.
    *   Шаг 2: Создать план ответа.
    *   Шаг 3: Написать финальный текст по плану [34:00].

## 🛠️ Retrieval-Augmented Generation (RAG)
[[JUMP:45:54]]

RAG — это механизм интеграции LLM с внешними базами знаний без переобучения самой модели [46:28].

Процесс работы RAG:

*   **Эмбеддинги:** Документы (PDF, текст) преобразуются в векторы (числовые представления) и сохраняются в векторной базе данных [48:02].
*   **Поиск (Retrieval):** Когда пользователь задает вопрос, его запрос также векторизуется, и система находит наиболее близкие по смыслу фрагменты документов [48:56].
*   **Генерация:** Найденный контекст передается в промпт модели с инструкцией: «Ответь на вопрос, основываясь только на этих данных. Если ответа нет — скажи, что не знаешь» [49:29].

Спикер упоминает метод **HyDE (Hypothetical Document Embeddings)**: когда модель сначала генерирует гипотетический (возможно, ложный) ответ, и уже этот текст используется для поиска реальных документов. Это помогает, когда краткий вопрос пользователя семантически не похож на развернутые документы в базе [51:16].

## 🤖 Агентные рабочие процессы (Agentic Workflows)
[[JUMP:53:47]]

Эндрю Ын (Andrew Ng) популяризировал термин «агентные рабочие процессы», акцентируя внимание на итеративном процессе, а не просто на «умном» чат-боте [54:00].

Основные компоненты агента [1:07:02]:

*   **Память:** Разделение на рабочую (быстрый доступ, например, имя пользователя) и архивную (долгосрочную) [1:07:45].
*   **Инструменты (Tools):** Способность модели вызывать внешние API (поиск авиабилетов, расчеты, CRM) [1:09:18].
*   **Планирование:** Агент сам решает, какую последовательность действий предпринять для достижения цели [1:18:04].

Спикер подчеркивает переход от детерминированного программирования к «нечеткому» (fuzzy engineering) [57:58]. Если раньше софт работал строго по алгоритму, то агентные системы ведут себя динамично, что требует создания новых механизмов контроля и «человека в цикле» (human-in-the-loop) для исправления ошибок агента [1:03:12].

## 🧪 Оценка и мультиагентные системы
[[JUMP:1:34:25]]

Ключевой вызов — понять, работает ли агент корректно. Для этого используются **LLM-судьи (LLM as a judge)** — более мощные модели, которые оценивают ответы других моделей по заданным критериям (рубрикам) [1:24:51].

Преимущества мультиагентных систем:

1.  **Параллелизм:** Несколько задач выполняются одновременно разными агентами [1:34:52].
2.  **Специализация:** Один агент сфокусирован на дизайне, другой на коде, третий на безопасности [1:35:19].
3.  **Иерархия:** «Оркестратор» общается с пользователем и распределяет задачи между узкоспециализированными агентами [1:37:43].

В завершение лекции обсуждается будущее AI. Спикер скептичен к идее скорого плато в развитии LLM, полагая, что новые архитектурные поиски (за пределами трансформеров) и мультимодальность (объединение текста, видео и аудио) дадут новый рывок, сравнимый с тем, как обучаются дети, сочетая наблюдение, инстинкты и обратную связь [1:47:13].