DeepLearning.AI: Почему простая нейросеть эффективнее SOTA в реальных проектах спасения жизней

DeepLearning.AI 569 10 мин 3 мин 27.07.2023
Главное

В новом уроке курса «AI for Good» от DeepLearning.AI рассматривается критически важный этап разработки социально значимых проектов — переход от постановки задачи к проектированию конкретного решения. На примере реального кейса по охране материнства и младенчества эксперты объясняют, почему в гуманитарных миссиях надежность и скорость дообучения модели зачастую важнее, чем использование самых современных, но «тяжелых» нейросетей.

🎨 Прототипирование и проектирование AI-решения 0:03

Процесс проектирования начинается после того, как команда определила стейкхолдеров и четко сформулировала проблему. На этапе дизайна (Design Phase) основная работа фокусируется на трех направлениях: создании прототипа, обеспечении безопасности данных и проектировании пользовательского опыта (UX) .

Создание прототипа подразумевает глубокое изучение имеющихся данных и тестирование различных моделей . В рассматриваемом кейсе проекта по охране здоровья матерей данные представляли собой массив входящих текстовых сообщений, которым сотрудники клиник вручную присваивали категории .

Ключевые этапы работы с данными в социально значимом проекте:

🛡️ Конфиденциальность данных и «принцип достоинства» 0:41

Работа с данными в сфере здравоохранения требует «чрезвычайной осмотрительности» (deliberate approach) на всех этапах . Основное правило, которого придерживаются в DeepLearning.AI: личные данные не могут быть использованы без явного разрешения для конкретного сценария использования .

Независимо от того, разрабатывается ли приложение для малообеспеченных слоев населения или для богатых пользователей, система должна по умолчанию предлагать максимально защищенный режим (private data practices) . По словам ведущего, защита конфиденциальности и безопасности — это не только технический стандарт, но и вопрос сохранения достоинства (dignity) людей, чьи данные хранятся в системе . В данном проекте доступ к сообщениям был ограничен только теми сотрудниками, которые и так видели их в рамках своей основной работы в клинике; сторонние разработчики, включая команду из компании Idibon, доступа к данным не имели .

⚙️ Выбор архитектуры: современность против надежности 3:00

Одной из центральных тем обсуждения стал выбор между моделями класса state-of-the-art (SOTA), обеспечивающими максимальную точность, и более простыми, но интерпретируемыми алгоритмами .

Для клиник в развивающихся регионах выбор был сделан в пользу простых моделей по нескольким причинам:

  1. Скорость дообучения: Простая модель может обновиться на основе новых данных за несколько минут, тогда как SOTA-модели могут требовать часы или дни .
  2. Обратная связь: Персонал клиники видит результат своей работы по разметке (аннотированию) данных почти мгновенно, что повышает вовлеченность .
  3. Интерпретируемость: Понимание логики работы модели в критических ситуациях важнее, чем лишний процент точности .

Согласно опыту разработчика в индустрии (в частности, в Idibon), подавляющее большинство клиентов предпочитают модели, которые быстро обновляются, а не те, что показывают рекордные результаты в лабораторных условиях . В реальном мире несколько дополнительных меток, поставленных человеком, приносят больше пользы, чем многочасовое обучение сложной нейросети .

🏥 Внедрение в рабочий процесс клиники 4:47

Внедрение AI не имело целью заменить врачей или сделать их работу безошибочной за один шаг. Главной задачей было подтвердить, что AI вообще может принести пользу в сравнении с полностью ручным процессом, который существовал ранее .

В качестве ключевых показателей эффективности (KPI) были выбраны:

Пользовательский опыт был спроектирован так, чтобы врачи получали автоматические предложения по категориям и приоритетности сообщений . Они могли либо подтвердить выбор системы, либо вручную переназначить категорию, тем самым обучая модель прямо в процессе работы .

🚧 Риски и возврат на этап исследования 7:40

На этапе дизайна команда может столкнуться с непредвиденными сложностями, такими как дисбаланс данных или техническая невозможность решить задачу текущими методами . В таких случаях авторы курса рекомендуют не бояться возвращаться на этап исследования (Explore phase), чтобы пересмотреть проблему или найти новые источники данных .

Ведущий подчеркивает, что фаза проектирования может длиться месяцы, а в некоторых случаях — годы, если система требует особо медленного и осторожного построения для соблюдения принципа «Не навреди» (Do no harm) . Только после того, как все вопросы безопасности и UX-дизайна решены, можно переходить к полномасштабной реализации (Implementation phase).

💬 Цитаты

«Проект должен переходить к практикам конфиденциальности по умолчанию во всех случаях.»

Автор курса 01:03

«В реальном мире несколько дополнительных человеческих меток важнее, чем часы дополнительного обучения модели.»

Автор курса 04:25

«Мы строили системы медленно и осторожно, чтобы гарантировать соблюдение принципа «Не навреди».»

Автор курса 10:11
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
SOTA (State-of-the-Art)
Самые передовые и современные модели или алгоритмы, показывающие лучшие результаты в тестах.
Аннотирование (Annotation)
Процесс разметки данных (например, присвоение категорий текстам) для последующего обучения машины.
NLP (Natural Language Processing)
Область искусственного интеллекта, занимающаяся анализом и обработкой человеческого языка.
📊 Цифры
🗓 Хронология
  1. До реализации Этап исследования (Explore Phase) и определение стейкхолдеров.
  2. Этап проектирования Месяцы или годы работы над архитектурой, защитой данных и UX.
  3. После проектирования Переход к реализации и внедрению (Implementation Phase).
⚖️ Другая сторона
Искусственный интеллект DeepLearning.AI NLP Machine Learning Data Privacy Idibon