В рамках курса CS230 по глубокому обучению в Стэндфордском университете прошла лекция, посвященная выходу за пределы «ванильных» языковых моделей. Эксперты Стэндфорда разобрали, как превратить статичные LLM в динамические агентные системы, способные решать сложные бизнес-задачи.
🧱 Ограничения базовых моделей и необходимость аугментации 3:42
Использование предобученных моделей, таких как GPT-4, в чистом виде (vanilla LLM) сопряжено с рядом критических ограничений :
- Разрыв в знаниях (Knowledge Gap): Модели ограничены датой отсечки тренировочных данных и не знают о событиях, произошедших вчера .
- Галлюцинации: В таких сферах, как медицина или право, выдуманные факты могут иметь катастрофические последствия .
- Отсутствие контекста: Окна контекста, хотя и растут, всё ещё ограничены (около 200 000 токенов, что эквивалентно примерно двум книгам), чего недостаточно для анализа огромных корпоративных баз данных .
- Сложность контроля: Лектор приводит в пример чат-бота Microsoft Tay (2016), который стал «расистским придурком» всего через 16 часов после запуска из-за манипуляций пользователей .
Для решения этих проблем используется вертикальная ось оптимизации: от промпт-инжиниринга до создания мультиагентных систем .
🧠 Промпт-инжиниринг: от «зеро-шот» до цепочек рассуждений 18:08
Согласно исследованию гарвардских и пенсильванских ученых, консультанты BCG, прошедшие обучение промпт-инжинирингу, показывают результаты выше, чем те, кто просто имеет доступ к ИИ .
Ключевые техники оптимизации промптов:
- Назначение роли (Persona): Использование конструкций вида «Act as...» (Действуй как эксперт по возобновляемой энергии) значительно улучшает качество ответа .
- Few-Shot Prompting: Предоставление модели нескольких примеров в самом запросе. Это помогает «выровнять» модель под специфический стиль или задачу (например, классификацию тональности отзывов в нишевой индустрии) .
- Chain of Thought (Цепочка мыслей): Инструкция «думай шаг за шагом» заставляет модель прописывать логику решения, прежде чем выдать финальный ответ .
- Chaining (Цепочки промптов): Разделение одной сложной задачи на последовательность более простых . Например, вместо одного запроса на написание письма клиенту:
🛠️ Retrieval-Augmented Generation (RAG) 45:54
RAG — это механизм интеграции LLM с внешними базами знаний без переобучения самой модели .
Процесс работы RAG:
- Эмбеддинги: Документы (PDF, текст) преобразуются в векторы (числовые представления) и сохраняются в векторной базе данных .
- Поиск (Retrieval): Когда пользователь задает вопрос, его запрос также векторизуется, и система находит наиболее близкие по смыслу фрагменты документов .
- Генерация: Найденный контекст передается в промпт модели с инструкцией: «Ответь на вопрос, основываясь только на этих данных. Если ответа нет — скажи, что не знаешь» .
Спикер упоминает метод HyDE (Hypothetical Document Embeddings): когда модель сначала генерирует гипотетический (возможно, ложный) ответ, и уже этот текст используется для поиска реальных документов. Это помогает, когда краткий вопрос пользователя семантически не похож на развернутые документы в базе .
🤖 Агентные рабочие процессы (Agentic Workflows) 53:47
Эндрю Ын (Andrew Ng) популяризировал термин «агентные рабочие процессы», акцентируя внимание на итеративном процессе, а не просто на «умном» чат-боте .
- Память: Разделение на рабочую (быстрый доступ, например, имя пользователя) и архивную (долгосрочную) .
- Инструменты (Tools): Способность модели вызывать внешние API (поиск авиабилетов, расчеты, CRM) .
- Планирование: Агент сам решает, какую последовательность действий предпринять для достижения цели .
Спикер подчеркивает переход от детерминированного программирования к «нечеткому» (fuzzy engineering) . Если раньше софт работал строго по алгоритму, то агентные системы ведут себя динамично, что требует создания новых механизмов контроля и «человека в цикле» (human-in-the-loop) для исправления ошибок агента .
🧪 Оценка и мультиагентные системы 1:34:25
Ключевой вызов — понять, работает ли агент корректно. Для этого используются LLM-судьи (LLM as a judge) — более мощные модели, которые оценивают ответы других моделей по заданным критериям (рубрикам) .
Преимущества мультиагентных систем:
- Параллелизм: Несколько задач выполняются одновременно разными агентами .
- Специализация: Один агент сфокусирован на дизайне, другой на коде, третий на безопасности .
- Иерархия: «Оркестратор» общается с пользователем и распределяет задачи между узкоспециализированными агентами .
В завершение лекции обсуждается будущее AI. Спикер скептичен к идее скорого плато в развитии LLM, полагая, что новые архитектурные поиски (за пределами трансформеров) и мультимодальность (объединение текста, видео и аудио) дадут новый рывок, сравнимый с тем, как обучаются дети, сочетая наблюдение, инстинкты и обратную связь .