Трехэтапный фреймворк автоматизации бизнеса: Как заставить ИИ работать на вас

The Cognitive Revolution 6,1 тыс. 1 ч 51 мин 15 мин 21.08.2024
Главное

Нейтан Ленц в своем выступлении на саммите Adapta в Сан-Паулу представил проверенный трехлетний фреймворк по автоматизации бизнес-процессов с помощью искусственного интеллекта. В условиях недавнего запуска тонкой настройки (fine-tuning) для модели GPT-4o, этот подход открывает новые горизонты для эффективной трансформации рутинных задач в компаниях любого масштаба. Автор подробно разбирает, как правильно выбирать процессы для делегирования нейросетям, глубоко документировать человеческую логику и последовательно оптимизировать поведение моделей для достижения результатов экспертного уровня.

🧠 Философия автоматизации: Что такое работа и интеллект? 7:08

Для построения правильной интуиции в области автоматизации необходимо вернуться к базовым дефинициям. По определению Ленца, работа представляет собой процесс трансформации входящих данных (inputs) в исходящие результаты (outputs). Интеллект же определяется как способность выполнять эту трансформацию без наличия точных и жестких инструкций. Именно отсутствие жесткого детерминизма отличает интеллектуальную деятельность от работы классических программных алгоритмов.

В качестве иллюстрации спикер приводит классический датасет MNIST, содержащий образцы рукописных цифр. Для человека задача идентификации этих чисел тривиальна, однако попытка прописать жесткие правила кодинга для ее решения традиционными методами оказывается практически невыполнимой. При тестировании модели Claude 3.5 Sonnet на задаче написания функции для классификации таких изображений через систему правил (например, «если сверху есть горизонтальная линия, то это семерка»), точность алгоритма составила всего 14%. Поисковая система Perplexity нашла альтернативное инженерное решение, использовав сжатие изображений типа ZIP и оценку размера файлов, что подняло точность до 80%, однако один ошибочный ответ из пяти все еще неприемлем для коммерческого использования, например, при автоматизированной сортировке писем на почте.

В то же время простые нейросети способны обучаться этой задаче на примерах, достигая точности в 99.7%, что соответствует человеческому уровню. Из этого Ленц выводит ключевое правило:

Использовать ИИ следует исключительно для тех задач, которые действительно требуют интеллекта. Если процесс можно реализовать с помощью традиционного детерминированного кода, этот путь всегда будет предпочтительнее, поскольку классический софт работает быстрее, обходится дешевле и защищен от непредсказуемых ошибок, свойственных нейросетям.

🚀 Возможности ИИ сегодня: От диагностики до клиентского сервиса 13:47

Современные языковые модели вплотную приблизились к показателям человеческой экспертизы на так называемых рутинных задачах — процессах, где критерии качества понятны и зафиксированы, а сама система может обучаться на репрезентативных примерах. При этом рутинность не означает низкую ценность.

Спикер выделяет два знаковых прецедента интеграции ИИ:

По мнению Ленца, эти примеры доказывают, что практически в любом бизнесе существуют рутинные процессы, которые ИИ способен выполнять на уровне человека или выше, позволяя компаниям экономить колоссальные ресурсы и масштабироваться без ограничений.

🤖 Спектр взаимодействия с ИИ: Чат, автоматизация и агенты 19:33

Для успешного внедрения технологий важно разделять три ключевых режима работы с искусственным интеллектом, которые сосуществуют на рынке сегодня.

Первый режим — это привычные чат-боты (ChatGPT, Claude), работающие в режиме реального времени. В этой парадигме человек выступает в роли пилота, а ИИ — ко-пилота. Оператор полностью контролирует процесс и вынужден ежеминутно оценивать качество генерации, решая, помогает ему система или тормозит работу.

Второй режим — это автоматизация (или ИИ-делегирование), выступающая главной темой презентации. Цель автоматизации заключается в том, чтобы перепоручить структурированный воркфлоу ИИ-системе на постоянной основе и обрести достаточную уверенность в результате, позволяющую отказаться от сквозной проверки каждого выхода. Такие воркфлоу обычно собираются на базе специализированного кода или no-code платформ (например, Zapier) и функционируют в фоновом режиме.

Третий режим — ИИ-агенты, представляющие собой попытку совместить гибкость чата и автономность автоматизации для ad-hoc делегирования задач («иди, сделай проект и вернись с результатом»). Ленц констатирует, что на текущий момент большинство агентных систем в реальном бизнесе показывают неудовлетворительные результаты из-за нехватки у моделей навыков долгосрочного планирования, рассуждения и саморефлексии. По прогнозам спикера, качественный скачок в агентных технологиях произойдет с выходом следующего поколения базовых моделей от ведущих лаборарий, которые уже обладают гораздо более мощными внутренними инструментами планирования.

📋 Шаг 1: Как правильно выбрать задачу для автоматизации 25:12

Первый этап фреймворка автоматизации — социальный и стратегический, требующий синхронизации между ИИ-экспертом и владельцем бизнес-домена. Ленц сформировал детальный чек-лист для фильтрации задач на предмет их пригодности для роботизации.

Критерии идеальной цели для автоматизации:

👽 «Инопланетный разум»: Понимание сильных и слабых сторон ИИ 33:22

Для корректного выбора задач необходимо избавиться от антропоморфизма. По мнению Ленца, ИИ правильнее воспринимать как «инопланетный разум» (alien intelligence), поскольку его когнитивный профиль полностью нарушает привычные нам человеческие паттерны производительности.

Спикер сравнивает три типа навыков, чтобы показать эту аномалию:

  1. Перевод: Для людей это сложнейший навык, требующий синхронности и долгих лет обучения. Для современных ИИ это суперсила — они переводят мгновенно, дешево и практически с любого крупного языка на любой другой на сильном функциональном уровне.
  2. Программирование: Находится посередине. ИИ стабильно пишет код на любых языках и даже обходит медианных участников на соревнованиях по кодингу, но пасует перед сложнейшими задачами на технологическом фронтире.
  3. Бытовое пространственное мышление (Common Sense Spatial Reasoning): Базовый навык для любого человека, но огромная слабость для современных ИИ. Нейросети до сих пор совершают нелепые ошибки в задачах на понимание физического мира (например, что произойдет, если положить яблоко на книгу, а сверху еще несколько предметов), поскольку в текстовом интернете мало эксплицитных описаний таких тривиальных действий.

Для калибровки понимания возможностей новых моделей Ленц ссылается на правило профессора Итана Моллика: эксперту требуется провести минимум 10 часов плотного диалога с новой нейросетью, чтобы нащупать реальные границы ее возможностей, сильные стороны и скрытые дефекты.

При детальном сопоставлении когнитивных карт человека и ИИ вырисовывается следующая картина компромиссов:

🔍 Шаг 2: Глубокое понимание и документирование работы 46:51

Второй этап фреймворка — декомпозиция выбранного процесса. При описании своих обязанностей сотрудники часто выдают поверхностные формулировки (например: «Я просто беру тикет поддержки и отвечаю на него»). ИИ-консультанту необходимо применить классический метод «давай разберем это шаг за шагом».

В процессе разбора воркфлоу раскладывается на алгоритмические действия и «черные ящики интеллекта» (black boxes of intelligence). Например, в цепочке обработки обращений операция «найти аккаунт клиента в базе данных по его Email» является детерминированной — ее нужно автоматизировать обычным кодом через SQL-запрос, не тратя токены ИИ. А вот шаг «оценить приоритет тикета и степень недовольства клиента» требует гибкого анализа и является тем самым интеллектуальным черным ящиком.

Главная задача на этом этапе — собрать 10 золотовых стандартов (gold standard examples). Это зафиксированные пары «входящие данные — идеальный исходящий результат», дополненные подробным текстовым описанием логики рассуждений человека.

Если вы не способны извлечь и зафиксировать 10 подробных примеров с прописанной цепочкой умозаключений (Chain of Thought), проект автоматизации гарантированно потерпит крах. Это важнейший организационный рубеж, который нельзя перепрыгнуть.

Спикер предостерегает от немедленной перестройки бизнес-процессов на ранних этапах. Гораздо безопаснее и эффективнее сначала научить ИИ безошибочно выполнять задачу внутри существующего паттерна работы, получить быстрое одобрение команды, а уже вторым шагом оптимизировать саму структуру процесса (например, убрать стадию приоритизации тикетов вовсе, поскольку ИИ за счет параллельности может отвечать на все запросы одновременно).

Приоритет между несколькими проектами автоматизации следует выстраивать, взвешивая объем рутины, ценность операции и риск неудачи. Попытка автоматизировать ответы на вопросы инвесторов выглядит высокомаржинальной, но из-за изменчивости контекста и кастомного характера отношений имеет низкие шансы на успех. Сервисные тикеты — идеальная стартовая точка.

🛠️ Шаг 3: Оптимизация производительности ИИ 1:00:57

Когда 10 эталонных примеров собраны, начинается техническая реализация. Ленц адаптирует матрицу OpenAI, разделяя оптимизацию на два вектора:

  1. Оптимизация информации (Context Optimization): Что модель должна знать в момент выполнения задачи.
  2. Оптимизация поведения (LLM Optimization): Как модель должна действовать и в каком формате выдавать ответ.

Для решения этих задач последовательно применяются три инструмента: промпт-инжиниринг, RAG и тонкая настройка.

Архитектура базового промпта

Для запуска базового тестирования Ленц использует универсальный шаблон промпта, доказавший свою эффективность на протяжении трех лет работы с разными поколениями моделей:

  1. Роль (Role): Четкое указание профессиональной роли (например: «Ты — эксперт службы поддержки клиентов»).
  2. Задача (Task): Конкретное описание требуемого действия («Твоя цель — присвоить категорию приоритета входящему тикету»).
  3. Инструкции (Instructions): Детальный свод правил, ограничений и «вайба» компании. Сюда загружаются как жесткие логические условия («Если клиент имеет статус VIP, приоритет всегда High»), так и требования к тону коммуникации. Современные модели отлично справляются с длинными, многостраничными инструкциями.
  4. Формат ответа (Format): Строгое требование выводить анализ до финального ответа. Принцип «AAA» — Analysis Before Answer Always (Анализ Прежде Чем Ответ Всегда). Если позволить ИИ выдать сначала вердикт, а затем обоснование, качество работы драматически падает, превращаясь в подгонку аргументов под случайный ответ. Форматирование оборачивается в теги XML или JSON.
  5. Примеры (Few-shot/K-shot): В тело промпта внедряются 9 из 10 собранных золотых стандартов (с входящим текстом, развернутой цепочкой рассуждений эксперта и финальным результатом). Десятый пример подается без ответа — для проверки качества работы модели. Проведя этот тест циклично 10 раз (каждый раз убирая новый пример в качестве проверочного), разработчик получает базовую метрику точности prompt-инжиниринга.

Оптимизация информации через RAG

Если для решения задачи ИИ требуется динамический доступ к терабайтам внутренних данных компании (инструкции, каталоги, истории заказов), которые физически невозможно или слишком дорого удерживать в контекстном окне, настраивается архитектура RAG (Retrieval-Augmented Generation).

При поступлении запроса система автоматически обращается к внешним источникам. Это могут быть как простые детерминированные API-запросы (подтянуть погоду, статус транзакции, профиль пользователя из CRM), так и семантический поиск по неструктурированным документам через векторные базы данных и эмбеддинги (например, поиск нужного параграфа в объемном юридическом регламенте компании). Извлеченные фрагменты динамически подмешиваются в итоговый промпт для модели. Главный совет Ленца — на этапе разработки подавать ИИ избыточный контекст, а затем аккуратно урезать его ради экономии.

📈 Тонкая настройка: Изменение поведения и масштабирование данных 1:09:32

Если промпт-инжиниринг не позволяет добиться целевой точности, наступает этап тонкой настройки (fine-tuning) — физического изменения весов нейросети для глубокой адаптации под конкретный паттерн поведения. При этом важно помнить о фундаментальном компромиссе: дообученная модель резко прибавляет в качестве на одной целевой задаче, но безвозвратно теряет общие когнитивные способности и глупеет во всех остальных сферах. Каждая автоматизированная задача требует отдельной fine-tune модели.

Экономика тонкой настройки в последнее время пережила революцию. Обучение модели GPT-4o mini на платформе OpenAI стоит всего $3 за 1 миллион токенов, а исполнение готовой кастомной модели обходится в 30 центов за 1 миллион входных токенов (что вдвое дороже базовой версии, но все еще является ничтожно малой суммой в бюджете любого бизнеса). Аналогичные удобные инструменты дообучения в облаке развернули Google (Gemini Flash) и Anthropic (Claude Haiku на Amazon Bedrock). Преимущество коммерческих провайдеров перед открытым кодом (Llama 3) заключается в том, что OpenAI не требует аренды выделенных серверных мощностей с почасовой оплатой — вы платите строго за отправленные токены с сохранением базовых лимитов скорости и масштабирования.

Процесс масштабирования данных подчиняется строгому правилу «10х». Алгоритм работы выглядит следующим образом:

  1. Раунд 1 (10 примеров): Загрузка исходных золотых стандартов. Если после этого модель демонстрирует полную неадекватность, задача выбрана неверно — она слишком сложна или масштабна. Ее необходимо повторно декомпозировать на подзадачи.
  2. Раунд 2 (100 примеров): Если ИИ нащупал верный путь, но совершает ошибки, требуется расширить выборку в 10 раз. Чтобы человеку не писать 90 новых цепочек рассуждений вручную, используется созданная в Раунде 1 модель: она генерирует сотни ответов, а эксперт просто отбирает и корректирует лучшие из них, быстро формируя массив данных.
  3. Раунд 3 (1000 примеров): Позволяет вывести систему на пиковую проектную мощность. Превышать планку в 1000 примеров для одной изолированной рутинной задачи в рамках коммерческой автоматизации Ленц считает нецелесообразным.

Лечение пограничных случаев (Edge Cases)

Когда система работает стабильно на основном потоке данных, но спотыкается на редких специфических кейсах (о которых сотрудники забыли упомянуть из-за их редкости), применяется точечное «патчирование» датасета. Для этого собирается мини-выборка из 5 реальных или синтетических примеров сбоев, для них прописывается безупречная траектория рассуждений (Chain of Thought), данные подмешиваются в общий массив, и модель отправляется на быстрый переобучающий раунд fine-tuning.

Владельцам бизнеса необходимо закладывать в план проекта минимум 3 базовых раунда тонкой настройки и несколько итераций точечного латания пограничных кейсов для управления ожиданиями и бюджетом.

⚖️ Лучшие практики и компромиссы автоматизации 1:21:42

Успех ИИ-трансформации во многом зависит от соблюдения продуктовой гигиены и понимания внутренних инженерных трендов. Ленц формулирует ряд аксиом для разработчиков и заказчиков:

При калибровке систем безопасности (False Positives vs False Negatives) важно понимать философию создателей моделей. По наблюдениям Ленца, экосистема Google Gemini настроена максимально консервативно (риск-аверсивная модель): она предпочитает выдать немотивированный отказ от выполнения задачи (refusal), лишь бы полностью исключить генерацию токсичного или опасного контента. OpenAI, напротив, минимизирует ложные отказы, сознательно допуская чуть более высокий риск некорректных ответов, поскольку их пользователи крайне негативно реагируют на нежелание модели выполнять прямые инструкции.

🔧 Инструменты, роли и будущее планирование 1:38:00

Для создания внутренних систем автоматизации Ленц настоятельно рекомендует использовать no-code и low-code платформы (Zapier, n8n) вместо написания кастомного софта с нуля силами классической веб-разработки. Инструменты вроде n8n (имеющие бесплатную open-source версию для самостоятельного хостинга) сегодня нативно поддерживают прямую интеграцию API ведущих ИИ-моделей в цепочки логических блоков. No-code решения разворачиваются кратно быстрее, обходятся дешевле в поддержке и позволяют линейным менеджерам без навыков программирования самостоятельно вносить правки в логику процессов.

На рынке ИИ-консалтинга спикер выделяет две ключевые роли, которые может совмещать один человек, но чьи компетенции радикально различаются:

  1. ИИ-консультант (AI Advisor): Специалист по человеческим коммуникациям. Он проводит аудит бизнеса, интервьюирует сотрудников, вытаскивает скрытые контексты, помогает формировать золотые стандарты и декомпозировать задачи.
  2. ИИ-инженер (AI Engineer): Технический исполнитель. Его зона ответственности — промпт-инжиниринг, развертывание векторных баз данных, настройка RAG-пайплайнов и проведение раундов тонкой настройки моделей.

В качестве финального подтверждения жизнеспособности фреймворка Ленц делится показателями внедрений в собственных компаниях. В стартапе Waymark внедрение сквозного ИИ-пайплайна генерации идей и сценариев для видеороликов сняло с пользователей творческий ступор, что привело к десятикратному (на 1000%) росту объемов создаваемого клиентами контента.

В компании Athena (ассистенты для топ-менеджеров) процесс онбординга нового клиента включал часовое интервью, обработка и структурирование которого ручным методом занимали у сотрудников 4 часа рабочего времени и обходились компании в $100 на один кейс. Созданный ИИ-пайплайн на базе продвинутого промпт-инжиниринга без использования fine-tuning сегодня выполняет эту работу менее чем за одну минуту, выдает аналитический документ более высокого качества, чем средний сотрудник, а стоимость операции упала ниже $1. Экономия составила более 99% при полном сохранении бесшовного клиентского опыта.

По мнению спикера, в текущих реалиях компаниям не стоит пытаться довести до абсолютного идеала автоматизацию одного процесса. Стратегически гораздо выгоднее автоматизировать 5–10 смежных задач до стабильного уровня «хорошо и заменяет человека», зафиксировать кратную экономию бюджетов и позволить глобальному технологическому прогрессу автоматически улучшать ваши бизнес-показатели с каждым обновлением нейросетей.

💬 Цитаты

«Используйте ИИ только для той работы, которая действительно требует интеллекта.»

Нейтан Лenц 12:56

«Анализ должен предшествовать ответу — всегда.»

«Сравнивайте производительность ИИ с человеческой эффективностью, а не с абсолютным совершенством.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Тонкая настройка (Fine-tuning)
Процесс дообучения готовой базовой нейросети на специфическом наборе данных для адаптации под конкретную узкую задачу.
RAG (Retrieval-Augmented Generation)
Метод, при котором ИИ перед генерацией ответа динамически извлекает актуальную информацию из внешних баз данных.
MNIST
Классический академический набор данных в машинном обучении, состоящий из образцов рукописных цифр.
Цепочка рассуждений (Chain of Thought)
Техника промпт-инжиниринга, заставляющая ИИ последовательно расписывать логику своих умозаключений перед выдачей ответа.
📊 Цифры
🗓 Хронология
  1. Лето 2021 года OpenAI впервые открывает доступ к тонкой настройке модели GPT-3, положив начало разработке автоматизационного фреймворка Нейтана Ленца.
  2. Май 2026 года Выход обновления OpenAI с возможностью тонкой настройки флагманской модели GPT-4o, ставшей поводом для презентации.
⚖️ Другая сторона
Искусственный интеллект OpenAI GPT-4o fine-tuning The Cognitive Revolution автоматизация процессов Тонкая настройка