Юньяо Ли о методах построения надежного корпоративного AI

The TWIML AI Podcast 583 56 мин 3 мин 18.11.2021
Главное

Укрощение сложности: Юньяо Ли о будущем корпоративного NLP 🤖 0:01

Разработка корпоративных систем обработки естественного языка (NLP) сталкивается с вызовами, которые радикально отличаются от академических бенчмарков. Юньяо Ли, старший менеджер по исследованиям в IBM Research, утверждает, что создание коммерчески успешных AI-продуктов требует выхода за рамки привычных «черных ящиков» нейросетей. В интервью подкасту The TWIML AI Podcast она рассказала о четырех ключевых инструментах, позволяющих превратить сырые технологии в надежные бизнес-решения: расширении данных, декларативных языках, нейросимвольном AI и активном вовлечении человека в цикл разработки (Human-in-the-loop).

Фундамент успеха: Четыре столпа корпоративного NLP 🧱 9:25

По мнению Ли, при внедрении NLP в enterprise-среде команды неизбежно сталкиваются с четырьмя критическими проблемами. Для их решения исследовательская группа IBM выработала комплексный подход:

Чтобы эффективно бороться с этими вызовами, команда Ли комбинирует следующие подходы:

  1. Data Augmentation: методы расширения данных.
  2. Декларативные языки: описание логики процесса без привязки к низкоуровневой реализации.
  3. Нейросимвольный AI: гибрид нейросетей и символьных систем.
  4. Human-in-the-loop: вовлечение экспертов не только в разметку данных, но и в процесс настройки логики модели.

Кейс Watson Discovery: Юриспруденция и AI ⚖️ 13:29

Ярким примером применения этих методов является система Watson Discovery Content and Intelligence, созданная для помощи юристам при анализе контрактов. Работа с юридическими текстами — это сложная задача, требующая перевода PDF-документов в машиночитаемый формат, идентификации положений (клауз) и автоматической классификации обязательств и сторон сделки.

Гостья отмечает, что если модель допускает ошибку (например, неверно классифицирует положение о товарном знаке как интеллектуальную собственность), профессионал может указать на это. Система позволяет использовать эту обратную связь не просто для «дообучения», а для уточнения правил, что превращает AI в инструмент, с которым юристы взаимодействуют как с коллегой.

Нейросимвольный подход: Лучшее из двух миров 🧠 21:38

Ли подчеркивает, что выбор между нейросетями и экспертными правилами — ложная дилемма. Ее команда использует нейросети для извлечения смысловых абстракций из текста, на основе которых затем строятся прозрачные и проверяемые символьные правила.

Роль человека: Агентность, а не просто разметка 🤝 47:38

По словам Ли, роль человека в разработке AI часто недооценивают, сводя ее к дешевой рабочей силе для разметки данных. Напротив, она убеждена, что экспертам нужно дать возможность активно участвовать в формировании модели.

Исследователь полагает, что по мере внедрения NLP в реальные бизнес-процессы, фокус академического сообщества смещается в сторону HCI (Human-Computer Interaction) — человеко-машинного взаимодействия, что подтверждается ростом количества тематических воркшопов на профильных конференциях, таких как NAACL.

💬 Цитаты

«Если мы автоматизируем всё, нам не придется ничего делать.»

«Нужно дать человеку больше агентности, расширять возможности людей, а не просто заставлять их размечать данные.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
NLP (Natural Language Processing)
Область AI, занимающаяся обработкой и пониманием естественного человеческого языка.
Нейросимвольный AI
Гибридный подход, сочетающий обучаемость нейронных сетей и логическую прозрачность символьных систем.
Human-in-the-loop
Модель разработки AI, предполагающая активное участие человека в цикле обучения или валидации системы.
Explainability
Способность системы AI предоставить понятное человеку объяснение логики своих выводов.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект IBM Research Natural Language Processing Neurosymbolic AI Human-in-the-loop Watson Discovery