# Секреты создания ИИ-агентов: от голосовых продаж до глубоких исследований

Источник: https://www.youtube.com/watch?v=B0TJC4lmzEM
Канал: freeCodeCamp.org
Опубликовано: 22.09.2025

---

## 🚀 Революция в создании ИИ-агентов: мастер-класс от freeCodeCamp
[[JUMP:0:00]]

Современные инструменты разработки позволяют создавать интеллектуальные системы, способные выполнять сложные задачи — от живых голосовых продаж до глубоких исследований рынка — всего за несколько минут. В рамках интенсивного воркшопа от freeCodeCamp эксперты из Cerebras, LiveKit, Exa и LangChain продемонстрировали архитектуру создания трех типов автономных ИИ-агентов. Главная идея курса заключается в том, чтобы перейти от простых чат-ботов к многоагентным системам, использующим специализированные LLM для выполнения реальных бизнес-задач.

## 🗣️ Создание голосовых агентов для продаж
[[JUMP:1:31]]

Голосовые агенты становятся новым стандартом взаимодействия с клиентами, предлагая более естественный и человекоподобный опыт, чем традиционные текстовые чат-боты. По словам Расса Дау, генерального директора LiveKit, такие системы — это не просто поиск по ключевым словам, а «состояние» (stateful) систем, которые понимают смысл сказанного и контекст диалога.

### Как работает голосовой конвейер (Pipeline)
[[JUMP:4:46]]

Процесс обработки речи внутри агента состоит из нескольких критических этапов:

*   **VAD (Voice Activity Detection):** Модель, работающая на CPU, фильтрует тишину и фоновый шум, передавая только человеческую речь, что экономит бюджет на API.
*   **ASR (Automatic Speech Recognition):** Конвертирует аудио в текст в реальном времени.
*   **Детекция конца фразы:** Специальная модель анализирует содержание, чтобы понять, закончил ли пользователь мысль, предотвращая раздражающие перебивания со стороны ИИ.
*   **LLM и TTS:** «Мозг» агента формирует ответ, который сразу же передается в движок Text-to-Speech для мгновенного озвучивания.

### Инструментарий и производительность
[[JUMP:8:02]]

Ключевым фактором для успеха голосовых агентов является скорость отклика (latency). Как отмечает Сара Чанг из Cerebras, задержка более 500 миллисекунд делает разговор «неестественным» и заставляет пользователей вешать трубку. 

*   **Cerebras:** Использует процессор WSE3 (Wafer Scale Engine) для достижения скорости в 2591 токен/сек с моделью Llama 3.3.
*   **LiveKit:** Выступает в роли «инфраструктурной сантехники», обеспечивая передачу данных через протокол WebRTC вместо медленного HTTP.
*   **Cartisia:** Предоставляет движок Ink (на базе Whisper) для транскрипции и Sonic для синтеза речи.

Для повышения эффективности продаж используется **RAG (Retrieval-Augmented Generation)**: в контекстное окно модели загружаются прайс-листы, описания продуктов и «обработчики возражений» (скрипты ответов на типичные отказы), что минимизирует галлюцинации ИИ.

## 🧠 Глубокое исследование с помощью ИИ
[[JUMP:23:38]]

Традиционное исследование требует недель ручной работы по сбору и анализу источников. Уилл Брик, CEO компании Exa, утверждает, что автоматизация этого процесса позволяет сжать исследовательский цикл с нескольких часов до менее чем одной минуты, обеспечивая при этом 10-кратное преимущество в скорости.

### Архитектура поискового агента
[[JUMP:26:16]]

Система глубокого исследования от Cerebras и Exa работает следующим образом:

1.  **Поиск через API:** Используется Exa, которая возвращает не просто ссылки, а полный контент веб-страниц, что критически важно для качественного анализа.
2.  **Анализ LLM:** Собранные данные поступают в Llama 4 17B (Scout) с низкой «температурой» (0.2), что обеспечивает фокус на фактах, а не на креативе.
3.  **Рекурсия:** Агент самостоятельно определяет «пробелы» в знаниях, формулирует дополнительные поисковые запросы и выполняет их, пока не будет достигнут исчерпывающий ответ.

## 📊 Автоматизация исследований пользователей (User Research)
[[JUMP:37:08]]

Лэнс Мартин из LangChain продемонстрировал, как превратить 6-недельный процесс проверки продуктовых гипотез в 60-секундный цикл с использованием LangGraph.

*   **Создание персон:** ИИ генерирует разнообразные профили пользователей с уникальными характеристиками и моделями поведения.
*   **Синтетические интервью:** Система проводит сотни симулированных диалогов между «исследователем» и «персоной», что исключает проблемы с логистикой и расписанием реальных участников.
*   **Анализ:** Последний этап — синтез полученных данных в бизнес-инсайты, выявление паттернов и тем.

LangGraph выступает как оркестратор, где каждый шаг исследования представлен как узел (node) в графе, что позволяет создавать масштабируемые и предсказуемые рабочие процессы.