Картик из Sierra AI о будущем агентных систем: «Агенты должны учиться через чтение»

Будущее агентных систем: опыт и видение Sierra AI 🚀 0:00

Агентное взаимодействие — это фундаментальный элемент на пути к созданию общего искусственного интеллекта (AGI). Современные исследования в области искусственного интеллекта постепенно трансформируются: от простого использования языковых моделей к созданию «языко-ориентированных» (language-enabled) агентов, способных не только рассуждать, но и совершать действия в реальном мире. Картик, руководитель исследовательского направления в Sierra AI и адъюнкт-профессор Принстонского университета, подчеркивает, что агент — это любая сущность, способная влиять на окружающую среду.

🧠 Трехуровневая модель развития агентов 5:30

Развитие агентных систем можно разделить на три последовательных этапа, основанных на синергии языковых возможностей и способности принимать решения:

Рассуждение и действие: Использование языка как инструмента для записи мыслей и логического планирования, что позволяет агенту действовать эффективно.
Обучение через чтение: Способность агента быстро усваивать новые навыки из текстовых источников, минимизируя необходимость в долгом процессе обучения методом проб и ошибок, характерном для классического обучения с подкреплением (reinforcement learning).
Природный интерфейс и контроль: Возможность управлять сложными системами с помощью свободного естественного языка без необходимости писать специфический код, что делает взаимодействие более интуитивным.

По оценке Картика, на сегодняшний день способность агентов эффективно рассуждать и действовать можно оценить на 50 баллов из 100, в то время как способность к быстрому обучению через чтение развита слабее — на 20–30 баллов.

🛠 Агентные системы в корпоративном секторе 12:05

Sierra AI специализируется на внедрении автономных агентов для реальных бизнес-задач, начиная с автоматизации службы поддержки. В этой области агент должен уметь вести многоходовый диалог, работать в условиях частичной наблюдаемости (когда клиент не сообщает все данные сразу) и выполнять конкретные действия в бэкенде, например, менять бронирование авиабилетов.

Одной из главных проблем при внедрении агентов в производство остается их надежность. В отличие от демо-версий, работающих «в тепличных условиях», реальные агенты должны демонстрировать повторяемую точность. По словам Картика, крайне важно достичь баланса между легкостью использования (гибкостью) и строгими требованиями к предсказуемости поведения системы.

📊 Роль бенчмарков в развитии индустрии 12:43

Для объективной оценки способностей моделей были разработаны ключевые бенчмарки:

ToWBench (Task-Oriented World Bench): Набор инструментов, созданный для оценки агентных систем в задачах customer support, где требуется сочетание многоходового диалога и действий.
SWEBench (Software Engineering Bench): Бенчмарк для оценки программирующих агентов. Он отражает реальность разработки: только 20% времени уходит на написание кода, остальные 80% — на отладку и работу с кодом.

Категоризация успеха: за последние два года показатели моделей в SWEBench выросли с менее чем 10% до почти 70%.

🌐 Горизонт: мультиагентное взаимодействие 25:42

Многие клиенты спрашивают о мультиагентном взаимодействии, однако часто за этим запросом не стоит конкретной бизнес-задачи. Картик считает, что для оправданного использования нескольких агентов необходима асимметрия:

Асимметрия навыков: Разные агенты специализируются на разных функциях.
Асимметрия информации: Когда данные распределены по разным компаниям или закрытым контурам, и агенты должны обмениваться ими по протоколам для выполнения общей задачи.

На текущем этапе развития индустрии, по мнению представителя Sierra, стоит избегать «насильственного» создания мультиагентных систем, если для этого нет явных функциональных оснований.