«Проблема не в производительности»: как тестировать поведение ИИ-агентов

a16z (Andreessen Horowitz) 3,4 тыс. 45 мин 2 мин 23.05.2025
Главное

Доверие как фундамент: почему производительность ИИ — это еще не всё 0:00

В индустрии машинного обучения на протяжении последних 15 лет господствовал подход, сфокусированный исключительно на оптимизации показателей: погоне за последними долями процента точности метрик. Однако, по мнению экспертов, такой подход является ошибочным. Главным препятствием для извлечения реальной ценности из современных ИИ-систем является не производительность, а доверие к ним.

Фокус на высокоуровневых метриках и конечных результатах сегодня маскирует нежелательные скрытые поведенческие особенности систем. Проблема стала острее с появлением генеративного ИИ: в отличие от традиционных моделей, выдававших классификационные или регрессионные ответы, современные системы — это интерактивные и зачастую агентные структуры.

🔍 Почему ИИ-системы ведут себя непредсказуемо 10:18

Обеспечение надежности и консистентности ИИ в Enterprise-сегменте сталкивается с тремя фундаментальными вызовами, которые делают определение и тестирование поведения крайне сложными задачами:

  1. Недетерминированность: Идентичные входные данные могут приводить к различным результатам. Система может быть хаотичной, где даже незначительные вариации в вопросе вызывают кардинально иные ответы.
  2. Нестационарность: Системы постоянно «смещаются» под пользователем. Это может быть вызвано обновлением инфраструктуры поставщиком LLM, изменением содержимого векторных баз данных или корректировкой поисковых запросов.
  3. Растущая сложность архитектуры: Современные приложения — это цепочки, где результат генерации подается на вход другой системе для автономного принятия решений. Ошибки и «хаос» накапливаются и масштабируются по мере прохождения данных через эти этапы.

🛠 Платформы как «единый интерфейс» для бизнеса 17:28

Организации переходят от разрозненных экспериментов отдельных команд («научных проектов») к созданию централизованных платформ GenAI. Это позволяет не только масштабировать ресурсы, но и бороться с феноменом shadow AI (теневого использования моделей, когда сотрудники без контроля отправляют данные внешним сервисам).

Практический подход к созданию такой платформы включает:

🧪 Тестирование как механизм верификации 13:51

В отличие от традиционных юнит-тестов, где проверяется конкретный «да/нет» результат, тестирование современных ИИ-систем требует оценки поведенческих характеристик.

По словам экспертов, именно такой подход позволяет ИИ-системам пройти путь от простых внутренних чат-ботов до сложных бизнес-решений, где цена ошибки (финансовой, репутационной или регуляторной) слишком высока. Разработчикам критически важно иметь «фонарик» — инструменты, которые позволяют видеть, что происходит внутри системы при масштабировании на миллионы пользователей.

💬 Цитаты

«Вещь, которая удерживает людей от получения ценности от этих ИИ-систем, — это не производительность. Это способность уверенно доверять этим системам.»

Основатель (Distributional) 00:12

«Машинное обучение — это то, что стало простым, а ИИ — это все забавные новые вещи.»

Основатель (Distributional) 01:16
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Нестационарность ИИ
Свойство системы изменять свое поведение со временем из-за внешних факторов (обновление данных, смена моделей).
RAG (Retrieval-Augmented Generation)
Метод генерации, при котором модель использует внешние источники данных для формирования ответа.
Агентные системы
Системы ИИ, способные совершать последовательность действий или вызывать инструменты для достижения цели.
📊 Цифры
🗓 Хронология
  1. 10-15 лет назад Основание первого стартапа SIGOP, сфокусированного на оптимизации традиционного ML.
  2. 2020 Продажа компании SIGOP корпорации Intel.
⚖️ Другая сторона
Искусственный интеллект Generative AI LLM Distributional AI Agents