Трехэтапный фреймворк автоматизации бизнеса: Как заставить ИИ работать на вас

Нейтан Ленц в своем выступлении на саммите Adapta в Сан-Паулу представил проверенный трехлетний фреймворк по автоматизации бизнес-процессов с помощью искусственного интеллекта. В условиях недавнего запуска тонкой настройки (fine-tuning) для модели GPT-4o, этот подход открывает новые горизонты для эффективной трансформации рутинных задач в компаниях любого масштаба. Автор подробно разбирает, как правильно выбирать процессы для делегирования нейросетям, глубоко документировать человеческую логику и последовательно оптимизировать поведение моделей для достижения результатов экспертного уровня.

🧠 Философия автоматизации: Что такое работа и интеллект? 7:08

Для построения правильной интуиции в области автоматизации необходимо вернуться к базовым дефинициям. По определению Ленца, работа представляет собой процесс трансформации входящих данных (inputs) в исходящие результаты (outputs). Интеллект же определяется как способность выполнять эту трансформацию без наличия точных и жестких инструкций. Именно отсутствие жесткого детерминизма отличает интеллектуальную деятельность от работы классических программных алгоритмов.

В качестве иллюстрации спикер приводит классический датасет MNIST, содержащий образцы рукописных цифр. Для человека задача идентификации этих чисел тривиальна, однако попытка прописать жесткие правила кодинга для ее решения традиционными методами оказывается практически невыполнимой. При тестировании модели Claude 3.5 Sonnet на задаче написания функции для классификации таких изображений через систему правил (например, «если сверху есть горизонтальная линия, то это семерка»), точность алгоритма составила всего 14%. Поисковая система Perplexity нашла альтернативное инженерное решение, использовав сжатие изображений типа ZIP и оценку размера файлов, что подняло точность до 80%, однако один ошибочный ответ из пяти все еще неприемлем для коммерческого использования, например, при автоматизированной сортировке писем на почте.

В то же время простые нейросети способны обучаться этой задаче на примерах, достигая точности в 99.7%, что соответствует человеческому уровню. Из этого Ленц выводит ключевое правило:

Использовать ИИ следует исключительно для тех задач, которые действительно требуют интеллекта. Если процесс можно реализовать с помощью традиционного детерминированного кода, этот путь всегда будет предпочтительнее, поскольку классический софт работает быстрее, обходится дешевле и защищен от непредсказуемых ошибок, свойственных нейросетям.

🚀 Возможности ИИ сегодня: От диагностики до клиентского сервиса 13:47

Современные языковые модели вплотную приблизились к показателям человеческой экспертизы на так называемых рутинных задачах — процессах, где критерии качества понятны и зафиксированы, а сама система может обучаться на репрезентативных примерах. При этом рутинность не означает низкую ценность.

Спикер выделяет два знаковых прецедента интеграции ИИ:

Медицинская диагностика: Исследование компании Google показало, что специализированная большая языковая модель, прошедшая несколько раундов тонкой настройки на медицинских данных, превзошла профессиональных врачей по точности постановки диагнозов. Оценка проводилась независимой коллегией докторов, подтвердившей превосходство ИИ по всем метрикам. Google проявляет осторожность и пока не выводит продукт на коммерческий рынок, но потенциал технологии очевиден.
Автоматизация клиентского сервиса: Финтех-компания Clara (Klarna) внедрила ИИ-ассистента на базе технологий OpenAI. За первый месяц работы система успешно обработала 2.3 миллиона диалогов, что составило две трети от всего объема входящих обращений компании. ИИ выполнил объем работы, эквивалентный труду 700 штатных специалистов службы поддержки на полную ставку, при этом сократив время фиксации проблем и увеличив скорость ответов. Ассистент доступен круглосуточно и поддерживает 35 языков. По оценкам менеджмента, данное внедрение увеличит прибыль компании на $40 млн только за 2024 год.

По мнению Ленца, эти примеры доказывают, что практически в любом бизнесе существуют рутинные процессы, которые ИИ способен выполнять на уровне человека или выше, позволяя компаниям экономить колоссальные ресурсы и масштабироваться без ограничений.

🤖 Спектр взаимодействия с ИИ: Чат, автоматизация и агенты 19:33

Для успешного внедрения технологий важно разделять три ключевых режима работы с искусственным интеллектом, которые сосуществуют на рынке сегодня.

Первый режим — это привычные чат-боты (ChatGPT, Claude), работающие в режиме реального времени. В этой парадигме человек выступает в роли пилота, а ИИ — ко-пилота. Оператор полностью контролирует процесс и вынужден ежеминутно оценивать качество генерации, решая, помогает ему система или тормозит работу.

Второй режим — это автоматизация (или ИИ-делегирование), выступающая главной темой презентации. Цель автоматизации заключается в том, чтобы перепоручить структурированный воркфлоу ИИ-системе на постоянной основе и обрести достаточную уверенность в результате, позволяющую отказаться от сквозной проверки каждого выхода. Такие воркфлоу обычно собираются на базе специализированного кода или no-code платформ (например, Zapier) и функционируют в фоновом режиме.

Третий режим — ИИ-агенты, представляющие собой попытку совместить гибкость чата и автономность автоматизации для ad-hoc делегирования задач («иди, сделай проект и вернись с результатом»). Ленц констатирует, что на текущий момент большинство агентных систем в реальном бизнесе показывают неудовлетворительные результаты из-за нехватки у моделей навыков долгосрочного планирования, рассуждения и саморефлексии. По прогнозам спикера, качественный скачок в агентных технологиях произойдет с выходом следующего поколения базовых моделей от ведущих лаборарий, которые уже обладают гораздо более мощными внутренними инструментами планирования.

📋 Шаг 1: Как правильно выбрать задачу для автоматизации 25:12

Первый этап фреймворка автоматизации — социальный и стратегический, требующий синхронизации между ИИ-экспертом и владельцем бизнес-домена. Ленц сформировал детальный чек-лист для фильтрации задач на предмет их пригодности для роботизации.

Критерии идеальной цели для автоматизации:

Размер задачи (Task-sized, а не Job-sized): ИИ отлично справляется с задачами, выполнение которых у человека занимает от нескольких минут до пары часов. Согласно бенчмаркам организации METR, как только длительность процесса у человека начинает превышать один день, процент успешного выполнения задачи нейросетью резко падает.
Медлительность и дороговизна: Автоматизировать нужно те узлы, перенос которых на ИИ даст максимальный экономический и временной эффект. Высокая частота повторения (репетитивность) процесса гарантирует окупаемость разработки.
Наличие эксплицитного контекста: ИИ изначально не знает ничего о вашем уникальном бизнесе, клиентах или внутренних регламентах. Если контекст в компании является имплицитным (скрытым, передающимся устно «у кулера»), автоматизация невозможна. Процесс подготовки к внедрению ИИ всегда требует перевода скрытых контекстов в текстовые документы.
Наличие золотого стандарта (Gold Standard Examples): Внутри команды должен существовать жесткий консенсус относительно того, что считать идеальным результатом выполнения задачи. Процессы, завязанные на субъективное восприятие («красота в глазах смотрящего»), где сотрудники сами спорят о правильности подхода, не подходят для автоматизации.
Низкий уровень риска и быстрая обратная связь: На первых этапах критически важно выбирать участки с минимальной чувствительностью к ошибкам ИИ, где любые сбои можно быстро зафиксировать и купировать.
Рутинность и отсутствие фана: Спикер полушутя советует автоматизировать в первую очередь те задачи, которые сотрудникам откровенно не нравится делать, оставляя творческие и приятные аспекты работы людям.

👽 «Инопланетный разум»: Понимание сильных и слабых сторон ИИ 33:22

Для корректного выбора задач необходимо избавиться от антропоморфизма. По мнению Ленца, ИИ правильнее воспринимать как «инопланетный разум» (alien intelligence), поскольку его когнитивный профиль полностью нарушает привычные нам человеческие паттерны производительности.

Спикер сравнивает три типа навыков, чтобы показать эту аномалию:

Перевод: Для людей это сложнейший навык, требующий синхронности и долгих лет обучения. Для современных ИИ это суперсила — они переводят мгновенно, дешево и практически с любого крупного языка на любой другой на сильном функциональном уровне.
Программирование: Находится посередине. ИИ стабильно пишет код на любых языках и даже обходит медианных участников на соревнованиях по кодингу, но пасует перед сложнейшими задачами на технологическом фронтире.
Бытовое пространственное мышление (Common Sense Spatial Reasoning): Базовый навык для любого человека, но огромная слабость для современных ИИ. Нейросети до сих пор совершают нелепые ошибки в задачах на понимание физического мира (например, что произойдет, если положить яблоко на книгу, а сверху еще несколько предметов), поскольку в текстовом интернете мало эксплицитных описаний таких тривиальных действий.

Для калибровки понимания возможностей новых моделей Ленц ссылается на правило профессора Итана Моллика: эксперту требуется провести минимум 10 часов плотного диалога с новой нейросетью, чтобы нащупать реальные границы ее возможностей, сильные стороны и скрытые дефекты.

При детальном сопоставлении когнитивных карт человека и ИИ вырисовывается следующая картина компромиссов:

Широта знаний: Безоговорочная победа ИИ. На тестах MMLU модели стабильно набирают более 90% по самому широкому спектру академических дисциплин, что недостижимо ни для одного живого эрудита.
Глубина знаний: Победа человека. Живой эксперт на месте (например, гид в Амазонии, знающий тонкости поведения местных рыб) всегда окажется глубже и точнее нейросети, оперирующей усредненными данными из Сети.
Инсайты и озарения (Eureka moments): Чистая победа человека. ИИ не способен на спонтанные творческие прорывы. Системы, берущие призовые места на математических олимпиадах или проходящие сложные тесты (Arc AGI), добиваются этого за счет жесткого брутфорса — генерации тысяч вариантов Python-кода и их последующей автоматической фильтрации.
Скорость, стоимость и масштабируемость: Абсолютная победа ИИ. Модель выдает текст быстрее, чем человек способен его прочесть, снижает стоимость выполнения задачи минимум на порядок (на 90% и более с учетом затрат на разработку), доступна 24/7 и способна мгновенно развернуть тысячи параллельных инстансов для обработки лавинообразного потока задач.
Память: На текущий момент человеческая память более интегрирована и интуитивна, но архитектурные надстройки (вроде HippoRAG) и экспоненциальное расширение контекстных окон ведут к тому, что в обозримом будущем цифровая память аппаратно и функционально превзойдет биологическую.

🔍 Шаг 2: Глубокое понимание и документирование работы 46:51

Второй этап фреймворка — декомпозиция выбранного процесса. При описании своих обязанностей сотрудники часто выдают поверхностные формулировки (например: «Я просто беру тикет поддержки и отвечаю на него»). ИИ-консультанту необходимо применить классический метод «давай разберем это шаг за шагом».

В процессе разбора воркфлоу раскладывается на алгоритмические действия и «черные ящики интеллекта» (black boxes of intelligence). Например, в цепочке обработки обращений операция «найти аккаунт клиента в базе данных по его Email» является детерминированной — ее нужно автоматизировать обычным кодом через SQL-запрос, не тратя токены ИИ. А вот шаг «оценить приоритет тикета и степень недовольства клиента» требует гибкого анализа и является тем самым интеллектуальным черным ящиком.

Главная задача на этом этапе — собрать 10 золотовых стандартов (gold standard examples). Это зафиксированные пары «входящие данные — идеальный исходящий результат», дополненные подробным текстовым описанием логики рассуждений человека.

Если вы не способны извлечь и зафиксировать 10 подробных примеров с прописанной цепочкой умозаключений (Chain of Thought), проект автоматизации гарантированно потерпит крах. Это важнейший организационный рубеж, который нельзя перепрыгнуть.

Спикер предостерегает от немедленной перестройки бизнес-процессов на ранних этапах. Гораздо безопаснее и эффективнее сначала научить ИИ безошибочно выполнять задачу внутри существующего паттерна работы, получить быстрое одобрение команды, а уже вторым шагом оптимизировать саму структуру процесса (например, убрать стадию приоритизации тикетов вовсе, поскольку ИИ за счет параллельности может отвечать на все запросы одновременно).

Приоритет между несколькими проектами автоматизации следует выстраивать, взвешивая объем рутины, ценность операции и риск неудачи. Попытка автоматизировать ответы на вопросы инвесторов выглядит высокомаржинальной, но из-за изменчивости контекста и кастомного характера отношений имеет низкие шансы на успех. Сервисные тикеты — идеальная стартовая точка.

🛠️ Шаг 3: Оптимизация производительности ИИ 1:00:57

Когда 10 эталонных примеров собраны, начинается техническая реализация. Ленц адаптирует матрицу OpenAI, разделяя оптимизацию на два вектора:

Оптимизация информации (Context Optimization): Что модель должна знать в момент выполнения задачи.
Оптимизация поведения (LLM Optimization): Как модель должна действовать и в каком формате выдавать ответ.

Для решения этих задач последовательно применяются три инструмента: промпт-инжиниринг, RAG и тонкая настройка.

Архитектура базового промпта

Для запуска базового тестирования Ленц использует универсальный шаблон промпта, доказавший свою эффективность на протяжении трех лет работы с разными поколениями моделей:

Роль (Role): Четкое указание профессиональной роли (например: «Ты — эксперт службы поддержки клиентов»).
Задача (Task): Конкретное описание требуемого действия («Твоя цель — присвоить категорию приоритета входящему тикету»).
Инструкции (Instructions): Детальный свод правил, ограничений и «вайба» компании. Сюда загружаются как жесткие логические условия («Если клиент имеет статус VIP, приоритет всегда High»), так и требования к тону коммуникации. Современные модели отлично справляются с длинными, многостраничными инструкциями.
Формат ответа (Format): Строгое требование выводить анализ до финального ответа. Принцип «AAA» — Analysis Before Answer Always (Анализ Прежде Чем Ответ Всегда). Если позволить ИИ выдать сначала вердикт, а затем обоснование, качество работы драматически падает, превращаясь в подгонку аргументов под случайный ответ. Форматирование оборачивается в теги XML или JSON.
Примеры (Few-shot/K-shot): В тело промпта внедряются 9 из 10 собранных золотых стандартов (с входящим текстом, развернутой цепочкой рассуждений эксперта и финальным результатом). Десятый пример подается без ответа — для проверки качества работы модели. Проведя этот тест циклично 10 раз (каждый раз убирая новый пример в качестве проверочного), разработчик получает базовую метрику точности prompt-инжиниринга.

Оптимизация информации через RAG

Если для решения задачи ИИ требуется динамический доступ к терабайтам внутренних данных компании (инструкции, каталоги, истории заказов), которые физически невозможно или слишком дорого удерживать в контекстном окне, настраивается архитектура RAG (Retrieval-Augmented Generation).

При поступлении запроса система автоматически обращается к внешним источникам. Это могут быть как простые детерминированные API-запросы (подтянуть погоду, статус транзакции, профиль пользователя из CRM), так и семантический поиск по неструктурированным документам через векторные базы данных и эмбеддинги (например, поиск нужного параграфа в объемном юридическом регламенте компании). Извлеченные фрагменты динамически подмешиваются в итоговый промпт для модели. Главный совет Ленца — на этапе разработки подавать ИИ избыточный контекст, а затем аккуратно урезать его ради экономии.

📈 Тонкая настройка: Изменение поведения и масштабирование данных 1:09:32

Если промпт-инжиниринг не позволяет добиться целевой точности, наступает этап тонкой настройки (fine-tuning) — физического изменения весов нейросети для глубокой адаптации под конкретный паттерн поведения. При этом важно помнить о фундаментальном компромиссе: дообученная модель резко прибавляет в качестве на одной целевой задаче, но безвозвратно теряет общие когнитивные способности и глупеет во всех остальных сферах. Каждая автоматизированная задача требует отдельной fine-tune модели.

Экономика тонкой настройки в последнее время пережила революцию. Обучение модели GPT-4o mini на платформе OpenAI стоит всего $3 за 1 миллион токенов, а исполнение готовой кастомной модели обходится в 30 центов за 1 миллион входных токенов (что вдвое дороже базовой версии, но все еще является ничтожно малой суммой в бюджете любого бизнеса). Аналогичные удобные инструменты дообучения в облаке развернули Google (Gemini Flash) и Anthropic (Claude Haiku на Amazon Bedrock). Преимущество коммерческих провайдеров перед открытым кодом (Llama 3) заключается в том, что OpenAI не требует аренды выделенных серверных мощностей с почасовой оплатой — вы платите строго за отправленные токены с сохранением базовых лимитов скорости и масштабирования.

Процесс масштабирования данных подчиняется строгому правилу «10х». Алгоритм работы выглядит следующим образом:

Раунд 1 (10 примеров): Загрузка исходных золотых стандартов. Если после этого модель демонстрирует полную неадекватность, задача выбрана неверно — она слишком сложна или масштабна. Ее необходимо повторно декомпозировать на подзадачи.
Раунд 2 (100 примеров): Если ИИ нащупал верный путь, но совершает ошибки, требуется расширить выборку в 10 раз. Чтобы человеку не писать 90 новых цепочек рассуждений вручную, используется созданная в Раунде 1 модель: она генерирует сотни ответов, а эксперт просто отбирает и корректирует лучшие из них, быстро формируя массив данных.
Раунд 3 (1000 примеров): Позволяет вывести систему на пиковую проектную мощность. Превышать планку в 1000 примеров для одной изолированной рутинной задачи в рамках коммерческой автоматизации Ленц считает нецелесообразным.

Лечение пограничных случаев (Edge Cases)

Когда система работает стабильно на основном потоке данных, но спотыкается на редких специфических кейсах (о которых сотрудники забыли упомянуть из-за их редкости), применяется точечное «патчирование» датасета. Для этого собирается мини-выборка из 5 реальных или синтетических примеров сбоев, для них прописывается безупречная траектория рассуждений (Chain of Thought), данные подмешиваются в общий массив, и модель отправляется на быстрый переобучающий раунд fine-tuning.

Владельцам бизнеса необходимо закладывать в план проекта минимум 3 базовых раунда тонкой настройки и несколько итераций точечного латания пограничных кейсов для управления ожиданиями и бюджетом.

⚖️ Лучшие практики и компромиссы автоматизации 1:21:42

Успех ИИ-трансформации во многом зависит от соблюдения продуктовой гигиены и понимания внутренних инженерных трендов. Ленц формулирует ряд аксиом для разработчиков и заказчиков:

Делайте самую сложную часть первой: В любом воркфлоу необходимо изолировать и протестировать центральный интеллектуальный узел («черный ящик») до того, как начнется построение инфраструктуры автоматизации. Написание кода для вебхуков, интеграция API-связок и создание no-code сценариев в Zapier — это прямолинейный детерминированный процесс. Тратить на него время бессмысленно, пока вы не доказали, что ИИ в принципе способен стабильно решать корневую интеллектуальную задачу.
Сначала точность, затем косты: Не позволяйте инженерам оптимизировать скорость работы и стоимость токенов на ранних этапах. При стоимости GPT-4o mini архитектурные метания ради экономии центов бессмысленны. Главная и единственная причина смерти ИИ-проектов в бизнесе — неудовлетворительное качество генерации, а не счета за API.
Сравнивайте ИИ с людьми, а не с идеалом: Это критически важный психологический барьер. Бизнес-заказчики склонны подвергать выходы ИИ жесточайшему микроскопическому анализу и браковать систему за малейшую неточность. Однако детальный аудит работы живых сотрудников неизменно вскрывает массу ошибок, опечаток, mis-классификаций и проявлений человеческого фактора. ИИ должен быть не идеальным, а работать на уровне или лучше текущих сотрудников.
Закон убывающей отдачи («Закон девяток»): Переход с точности 90% (одна девятка) на 99% (две девятки) требует десятикратного увеличения объема данных и усилий разработки. Прорыв к 99.9% в реальном бизнесе практически невозможен и экономически не оправдан.
Закладывайте фактор неизбежного устаревания: Архитектура ИИ развивается экспоненциально. Не стоит тратить месяцы на создание сложнейших многоуровневых систем костылей для текущей модели. Разумнее запустить решение уровня «хорошо и работает сейчас», зафиксировать финансовую прибыль и дождаться выхода следующего поколения базовых моделей, которое за счет встроенных возможностей сделает ваши прошлые инженерные ухищрения избыточными.

При калибровке систем безопасности (False Positives vs False Negatives) важно понимать философию создателей моделей. По наблюдениям Ленца, экосистема Google Gemini настроена максимально консервативно (риск-аверсивная модель): она предпочитает выдать немотивированный отказ от выполнения задачи (refusal), лишь бы полностью исключить генерацию токсичного или опасного контента. OpenAI, напротив, минимизирует ложные отказы, сознательно допуская чуть более высокий риск некорректных ответов, поскольку их пользователи крайне негативно реагируют на нежелание модели выполнять прямые инструкции.

🔧 Инструменты, роли и будущее планирование 1:38:00

Для создания внутренних систем автоматизации Ленц настоятельно рекомендует использовать no-code и low-code платформы (Zapier, n8n) вместо написания кастомного софта с нуля силами классической веб-разработки. Инструменты вроде n8n (имеющие бесплатную open-source версию для самостоятельного хостинга) сегодня нативно поддерживают прямую интеграцию API ведущих ИИ-моделей в цепочки логических блоков. No-code решения разворачиваются кратно быстрее, обходятся дешевле в поддержке и позволяют линейным менеджерам без навыков программирования самостоятельно вносить правки в логику процессов.

На рынке ИИ-консалтинга спикер выделяет две ключевые роли, которые может совмещать один человек, но чьи компетенции радикально различаются:

ИИ-консультант (AI Advisor): Специалист по человеческим коммуникациям. Он проводит аудит бизнеса, интервьюирует сотрудников, вытаскивает скрытые контексты, помогает формировать золотые стандарты и декомпозировать задачи.
ИИ-инженер (AI Engineer): Технический исполнитель. Его зона ответственности — промпт-инжиниринг, развертывание векторных баз данных, настройка RAG-пайплайнов и проведение раундов тонкой настройки моделей.

В качестве финального подтверждения жизнеспособности фреймворка Ленц делится показателями внедрений в собственных компаниях. В стартапе Waymark внедрение сквозного ИИ-пайплайна генерации идей и сценариев для видеороликов сняло с пользователей творческий ступор, что привело к десятикратному (на 1000%) росту объемов создаваемого клиентами контента.

В компании Athena (ассистенты для топ-менеджеров) процесс онбординга нового клиента включал часовое интервью, обработка и структурирование которого ручным методом занимали у сотрудников 4 часа рабочего времени и обходились компании в $100 на один кейс. Созданный ИИ-пайплайн на базе продвинутого промпт-инжиниринга без использования fine-tuning сегодня выполняет эту работу менее чем за одну минуту, выдает аналитический документ более высокого качества, чем средний сотрудник, а стоимость операции упала ниже $1. Экономия составила более 99% при полном сохранении бесшовного клиентского опыта.

По мнению спикера, в текущих реалиях компаниям не стоит пытаться довести до абсолютного идеала автоматизацию одного процесса. Стратегически гораздо выгоднее автоматизировать 5–10 смежных задач до стабильного уровня «хорошо и заменяет человека», зафиксировать кратную экономию бюджетов и позволить глобальному технологическому прогрессу автоматически улучшать ваши бизнес-показатели с каждым обновлением нейросетей.