# Юньяо Ли о методах построения надежного корпоративного AI

Источник: https://www.youtube.com/watch?v=UhaXPEArKkc
Канал: The TWIML AI Podcast
Опубликовано: 18.11.2021

---

## Укрощение сложности: Юньяо Ли о будущем корпоративного NLP 🤖
[[JUMP:0:01]]

Разработка корпоративных систем обработки естественного языка (NLP) сталкивается с вызовами, которые радикально отличаются от академических бенчмарков. Юньяо Ли, старший менеджер по исследованиям в IBM Research, утверждает, что создание коммерчески успешных AI-продуктов требует выхода за рамки привычных «черных ящиков» нейросетей. В интервью подкасту The TWIML AI Podcast она рассказала о четырех ключевых инструментах, позволяющих превратить сырые технологии в надежные бизнес-решения: расширении данных, декларативных языках, нейросимвольном AI и активном вовлечении человека в цикл разработки (Human-in-the-loop).

## Фундамент успеха: Четыре столпа корпоративного NLP 🧱
[[JUMP:9:25]]

По мнению Ли, при внедрении NLP в enterprise-среде команды неизбежно сталкиваются с четырьмя критическими проблемами. Для их решения исследовательская группа IBM выработала комплексный подход:

* **Сложность:** необходимость обработки документов со сложной структурой и решение многоуровневых аналитических задач.
* **Проблема малых данных:** в бизнесе часто отсутствуют огромные размеченные датасеты, репрезентативные для конкретной задачи клиента.
* **Кастомизация:** «коробочные» решения редко подходят идеально, и клиентам нужно дать возможность быстро адаптировать систему под свои данные без привлечения узких специалистов.
* **Объяснимость (Explainability):** в рамках «доверенного AI» критически важно понимать, почему модель приняла то или иное решение, особенно при работе с юридическими документами.

Чтобы эффективно бороться с этими вызовами, команда Ли комбинирует следующие подходы:

1.  **Data Augmentation:** методы расширения данных.
2.  **Декларативные языки:** описание логики процесса без привязки к низкоуровневой реализации.
3.  **Нейросимвольный AI:** гибрид нейросетей и символьных систем.
4.  **Human-in-the-loop:** вовлечение экспертов не только в разметку данных, но и в процесс настройки логики модели.

## Кейс Watson Discovery: Юриспруденция и AI ⚖️
[[JUMP:13:29]]

Ярким примером применения этих методов является система *Watson Discovery Content and Intelligence*, созданная для помощи юристам при анализе контрактов. Работа с юридическими текстами — это сложная задача, требующая перевода PDF-документов в машиночитаемый формат, идентификации положений (клауз) и автоматической классификации обязательств и сторон сделки.

Гостья отмечает, что если модель допускает ошибку (например, неверно классифицирует положение о товарном знаке как интеллектуальную собственность), профессионал может указать на это. Система позволяет использовать эту обратную связь не просто для «дообучения», а для уточнения правил, что превращает AI в инструмент, с которым юристы взаимодействуют как с коллегой.

## Нейросимвольный подход: Лучшее из двух миров 🧠
[[JUMP:21:38]]

Ли подчеркивает, что выбор между нейросетями и экспертными правилами — ложная дилемма. Ее команда использует нейросети для извлечения смысловых абстракций из текста, на основе которых затем строятся прозрачные и проверяемые символьные правила.

* **Преимущества:** такая система обучается на данных, но сохраняет прозрачность, что значительно сокращает время на валидацию модели в таких сферах, как розничный банкинг, где цена ошибки крайне высока.
* **Гибкость:** если explainability критична, упор делается на символьную часть; если важна максимальная производительность — на нейросетевую составляющую.

## Роль человека: Агентность, а не просто разметка 🤝
[[JUMP:47:38]]

По словам Ли, роль человека в разработке AI часто недооценивают, сводя ее к дешевой рабочей силе для разметки данных. Напротив, она убеждена, что экспертам нужно дать возможность активно участвовать в формировании модели. 

* **Разметка через обучение:** вместо предоставления тысяч примеров, пользователь может указать несколько «интересных» предложений, и система сама предложит интерпретации, которые эксперт сможет подтвердить или скорректировать.
* **Rich Feedback:** эксперт может дать не только метку, но и пояснение (rationale), почему конкретный фрагмент текста важен, что позволяет модели «усвоить» экспертное знание.

Исследователь полагает, что по мере внедрения NLP в реальные бизнес-процессы, фокус академического сообщества смещается в сторону HCI (Human-Computer Interaction) — человеко-машинного взаимодействия, что подтверждается ростом количества тематических воркшопов на профильных конференциях, таких как NAACL.