Beyond LLM: Стэндфордский гайд по созданию агентных систем в 2025 году

В рамках курса CS230 по глубокому обучению в Стэндфордском университете прошла лекция, посвященная выходу за пределы «ванильных» языковых моделей. Эксперты Стэндфорда разобрали, как превратить статичные LLM в динамические агентные системы, способные решать сложные бизнес-задачи.

🧱 Ограничения базовых моделей и необходимость аугментации 3:42

Использование предобученных моделей, таких как GPT-4, в чистом виде (vanilla LLM) сопряжено с рядом критических ограничений :

Разрыв в знаниях (Knowledge Gap): Модели ограничены датой отсечки тренировочных данных и не знают о событиях, произошедших вчера .
Галлюцинации: В таких сферах, как медицина или право, выдуманные факты могут иметь катастрофические последствия .
Отсутствие контекста: Окна контекста, хотя и растут, всё ещё ограничены (около 200 000 токенов, что эквивалентно примерно двум книгам), чего недостаточно для анализа огромных корпоративных баз данных .
Сложность контроля: Лектор приводит в пример чат-бота Microsoft Tay (2016), который стал «расистским придурком» всего через 16 часов после запуска из-за манипуляций пользователей .

Для решения этих проблем используется вертикальная ось оптимизации: от промпт-инжиниринга до создания мультиагентных систем .

🧠 Промпт-инжиниринг: от «зеро-шот» до цепочек рассуждений 18:08

Согласно исследованию гарвардских и пенсильванских ученых, консультанты BCG, прошедшие обучение промпт-инжинирингу, показывают результаты выше, чем те, кто просто имеет доступ к ИИ .

Ключевые техники оптимизации промптов:

Назначение роли (Persona): Использование конструкций вида «Act as...» (Действуй как эксперт по возобновляемой энергии) значительно улучшает качество ответа .
Few-Shot Prompting: Предоставление модели нескольких примеров в самом запросе. Это помогает «выровнять» модель под специфический стиль или задачу (например, классификацию тональности отзывов в нишевой индустрии) .
Chain of Thought (Цепочка мыслей): Инструкция «думай шаг за шагом» заставляет модель прописывать логику решения, прежде чем выдать финальный ответ .
Chaining (Цепочки промптов): Разделение одной сложной задачи на последовательность более простых . Например, вместо одного запроса на написание письма клиенту:
- Шаг 1: Извлечь ключевые проблемы из жалобы.
- Шаг 2: Создать план ответа.
- Шаг 3: Написать финальный текст по плану .

🛠️ Retrieval-Augmented Generation (RAG) 45:54

RAG — это механизм интеграции LLM с внешними базами знаний без переобучения самой модели .

Процесс работы RAG:

Эмбеддинги: Документы (PDF, текст) преобразуются в векторы (числовые представления) и сохраняются в векторной базе данных .
Поиск (Retrieval): Когда пользователь задает вопрос, его запрос также векторизуется, и система находит наиболее близкие по смыслу фрагменты документов .
Генерация: Найденный контекст передается в промпт модели с инструкцией: «Ответь на вопрос, основываясь только на этих данных. Если ответа нет — скажи, что не знаешь» .

Спикер упоминает метод HyDE (Hypothetical Document Embeddings): когда модель сначала генерирует гипотетический (возможно, ложный) ответ, и уже этот текст используется для поиска реальных документов. Это помогает, когда краткий вопрос пользователя семантически не похож на развернутые документы в базе .

🤖 Агентные рабочие процессы (Agentic Workflows) 53:47

Эндрю Ын (Andrew Ng) популяризировал термин «агентные рабочие процессы», акцентируя внимание на итеративном процессе, а не просто на «умном» чат-боте .

Основные компоненты агента :

Память: Разделение на рабочую (быстрый доступ, например, имя пользователя) и архивную (долгосрочную) .
Инструменты (Tools): Способность модели вызывать внешние API (поиск авиабилетов, расчеты, CRM) .
Планирование: Агент сам решает, какую последовательность действий предпринять для достижения цели .

Спикер подчеркивает переход от детерминированного программирования к «нечеткому» (fuzzy engineering) . Если раньше софт работал строго по алгоритму, то агентные системы ведут себя динамично, что требует создания новых механизмов контроля и «человека в цикле» (human-in-the-loop) для исправления ошибок агента .

🧪 Оценка и мультиагентные системы 1:34:25

Ключевой вызов — понять, работает ли агент корректно. Для этого используются LLM-судьи (LLM as a judge) — более мощные модели, которые оценивают ответы других моделей по заданным критериям (рубрикам) .

Преимущества мультиагентных систем:

Параллелизм: Несколько задач выполняются одновременно разными агентами .
Специализация: Один агент сфокусирован на дизайне, другой на коде, третий на безопасности .
Иерархия: «Оркестратор» общается с пользователем и распределяет задачи между узкоспециализированными агентами .

В завершение лекции обсуждается будущее AI. Спикер скептичен к идее скорого плато в развитии LLM, полагая, что новые архитектурные поиски (за пределами трансформеров) и мультимодальность (объединение текста, видео и аудио) дадут новый рывок, сравнимый с тем, как обучаются дети, сочетая наблюдение, инстинкты и обратную связь .