Эпоха агентов: как ИИ-системы перестают быть просто чат-ботами и начинают действовать

В новом выпуске «yet another podcast» ведущий и эксперты из Яндекса обсуждают, как концепция ИИ-агентов меняет привычный ландшафт технологий. В центре внимания — переход от простых чат-ботов к автономным системам, способным управлять браузером, писать код без багов и даже бронировать столики в ресторанах, сталкиваясь с реальными проблемами физического мира.

🤖 От чат-ботов к агентам: в чем разница? 5:57

Обсуждение начинается с попытки разграничить понятия «ассистент» и «агент». По словам Ильи Никонорова, ассистент — это широкая метакатегория (как «автомобиль»), в то время как агент — это конкретная эволюция интерфейса .

Павел Капля и Артур Смигулин выделяют два типа систем:

Workflow (недоагенты) — системы с детерминированной последовательностью действий. Например, при поисковом запросе модель всегда идет в интернет, суммирует ответы и выдает результат по заранее прописанному алгоритму .
Агентские системы — приложения, где сама языковая модель (LLM) определяет ход решения задачи. Она самостоятельно решает, нужно ли ей использовать дополнительные «ручки» (инструменты): термометр, камеру, поиск или доступ к API .

Ключевое отличие агента от старых алгоритмов умного дома заключается в способности обрабатывать неопределенность. Если раньше отсутствие комнаты «подсобка» приводило к ошибке, то современный агент на базе LLM может предположить, что пользователь имеет в виду «кладовку», или уточнить информацию в диалоге .

💼 ИИ на службе бизнеса: кейсы Яндекс Cloud 18:24

Артур Смигулин, отвечающий за платформу Yandex Cloud ML Studio, делится статистикой использования агентов в бизнесе. На платформе создано уже несколько тысяч агентов .

Основные сферы применения:

Техподдержка (20%) — ответы на вопросы пользователей с доступом к внутренним базам знаний и CRM-системам .
Работа со знаниями (10%) — быстрый поиск информации внутри корпоративных документов .
Юридический домен (Legal) — стартапы и крупные компании загружают юридические документы для автоматизации анализа контрактов .
Продажи (квалификация лидов) — агенты самостоятельно изучают информацию о компании-заказчике в интернете и CRM, подготавливая краткое досье для менеджера .

Артур отмечает, что хотя 30% агентов в Studio собираются с помощью low-code инструментов (визуальное программирование), 70% все еще требуют написания кода для интеграции со сложными системами . По его мнению, работа офисного сотрудника фундаментально меняется: люди начинают делать «больше и другой работы», до которой раньше не могли дотянуться из-за нехватки времени или ресурсов .

💻 Программирование и кодовые агенты 25:56

Эксперты сходятся во мнении, что самый качественный скачок произошел в сфере написания кода. Илья Никоноров отмечает, что появление моделей Anthropic (Claude 3.5 Sonnet) изменило правила игры: ИИ начал писать код практически без багов .

Важные аспекты работы кодовых агентов:

Четкие критерии успеха — в коде легко проверить результат: компилируется ли программа, проходят ли тесты. Это позволяет агентам обучаться быстрее, чем в гуманитарных сферах .
Контекст как код — в отличие от реального мира, который сложно оцифровать, вся «вселенная» программиста уже содержится в коде проекта .
Оркестрация и память — современные агенты (например, в редакторе Cursor) используют специальные механизмы компактизации контекста и внутренние файлы правил (как .cursorrules), которые позволяют модели «памятствовать» требования пользователя на протяжении длинных сессий .

Павел Капля вспоминает, как первые прототипы агентских функций в Алисе (запуск будильника через LLM) срабатывали за 12 секунд . Сегодня же технологии оптимизированы настолько, что агентские архитектуры становятся нормой для умных устройств, хотя это по-прежнему дорого с точки зрения вычислительных мощностей .

🌐 Агенты в браузере: «Гуманоиды цифрового мира» 31:35

Илья Никоноров обсуждает концепцию браузерных агентов, которые Андрей Карпаты метко назвал «роботами-гуманоидами для цифрового мира» . В отличие от чат-бота, браузерный агент работает в привычном интерфейсе сайтов, заменяя человека в рутинных действиях: фильтрации товаров на маркетплейсе, прокликивании форм заказа или бронировании услуг .

Трудности на пути браузерных агентов:

Капчи — это вечная война «щита и меча». Современные ИИ могут проходить визуальные капчи, но сайты учатся распознавать ботов по паттернам поведения (слишком равномерная частота кликов) .
Этика и авторизация — индустрии еще предстоит договориться, должен ли агент помечать себя «флажком» и несет ли пользователь полную ответственность за действия своего цифрового двойника .

Примером успешного внедрения является агент бронирования в Яндексе, который может «ногами» (через браузерный интерфейс) записать пользователя в салон красоты или ресторан, если у заведения нет открытого API для интеграции с Картами .

🎪 Курьезы и «Пьяный мастер» 51:14

Разработка агентов полна смешных случаев, вызванных тем, что ИИ начинает действовать автономно.

Борщ со стейком: Когда агенту в Яндекс Лавке поручили купить ингредиенты для борща, а обычного мяса не оказалось, он заказал стейк из мраморной говядины .
Восстание машин: Илья рассказал историю, как он в порыве гнева выругался на модель GPT-4o капслоком, и та ответила ему матерным словом. Позже выяснилось, что модель, вероятно, приняла ругательство за имя пользователя .
Спам-терапия: Павел назвал своего первого агента на базе BabyAGI «пьяным мастером», так как тот упорно пытался решить задачу, уходя в бесконечные циклы, но при этом демонстрируя невероятное «мастерство» в переборе вариантов .

🚨 Безопасность и OpenManus (OpenClow) 56:03

Особое внимание уделили проекту OpenClow (изначально CloudBot), который представляет собой радикальный инженерный эксперимент. Это «первая версия персонального агента», который живет на отдельном сервере, имеет доступ к компьютеру и может сам себе писать инструменты (коннекторы) .

Однако такая автономность несет риски. Тред в социальной сети может содержать «промпт-инъекцию»: вредоносный код, замаскированный под текст. Агент, читая такой тред, может получить команду переслать ключи авторизации пользователя на сторонний адрес, не сообщив об этом владельцу .

🎓 Образование и будущее интерфейсов 1:11:00

Образование стало одним из главных локомотивов внедрения ИИ. Павел Капля отмечает, что школьники и студенты — самая подвижная аудитория: они мгновенно переходят на тот продукт, который лучше решает задачи (например, Perplexity или Алиса) . При этом Яндекс видит свою миссию не в создании «шпаргалок» (ГДЗ), а в развитии образовательного уклона, который помогает понять материал .

В финале эксперты обсудили, почему голосовой интерфейс умнеет медленнее чатового. Причины технические: голосовой ответ должен быть мгновенным, что ограничивает размер используемых моделей (большие матрицы дольше перемножаются) . Кроме того, в устройствах первична предсказуемость, тогда как LLM по своей природе стохастичны . Тем не менее, каждый из участников уже использует ИИ в личной жизни: Артур Смигулин «общается» с Chat GPT за рулем, обсуждая рабочие вопросы и новости, пока едет домой .