«Не навреди»: почему DeepLearning.AI призывает закрывать неэффективные ИИ-разработки

DeepLearning.AI 574 13 мин 7 мин 27.07.2023
Главное

Разработка искусственного интеллекта для социальных нужд сопряжена с высокой долей неудовлетворительных результатов, где техническое совершенство модели часто отходит на второй план перед удобством реальных пользователей. В рамках обучающего курса от DeepLearning.AI рассматриваются практические уроки оценки ИИ-проектов, включая реальные кейсы из сферы здравоохранения в Нигерии и опыт пандемии COVID-19. Главный вывод экспертов заключается в том, что неудачи — это необходимая часть эволюции гуманитарных технологий, если разработчики строго соблюдают базовый этический принцип «Не навреди».

📊 Фаза оценки: почему технический успех ИИ не гарантирует пользу 0:02

После развертывания любой технологической системы проект неизбежно переходит в фазу оценки. На этом этапе команда должна измерить, насколько успешным оказался запуск, и донести эти результаты до ключевых стейкхолдеров. Измерение реального воздействия — деликатный процесс, критерии которого должны закладываться еще на этапе исследования проблемы через формирование четкого и детального технического задания.

В качестве сквозного примера лектор приводит проект поддержки материнского здоровья в Нигерии. Исходная проблема формулировалась следующим образом: медицинским учреждениям требовался инструмент прямой связи с матерями через текстовые опросы для мониторинга здоровья женщин и их детей. Для реализации этой задачи системе было необходимо оперативно обрабатывать огромные массивы входящих SMS-сообщений на нескольких языках, отсеивая при этом нереле спам от реальных ответов на опросы.

По мнению автора курса, технический компонент ИИ — это всегда лишь малая часть комплексного и зачастую запутанного ИТ-продукта. Именно поэтому высокая точность самой математической модели не является ни главным фактором успеха, ни гарантией позитивного исхода проекта в целом.

🛑 Крах интерфейса: как «рутина данных» погубила благородную инициативу 1:21

В кейсе с нигерийскими клиниками базовая модель искусственного интеллекта показала отличные результаты. Более того, ее точность непрерывно росла благодаря новым аннотациям и исправлениям, которые вручную вносили сотрудники клиники. С формальной точки зрения производительность труда персонала выросла: медики обрабатывали больше обращений пациентов за меньшее время.

Однако по мере развития проекта сотрудники клиники начали жаловаться на критически плохой пользовательский интерфейс (UX). Медсестры и врачи стали чувствовать себя не медицинскими специалистами, а операторами по вводу и обслуживанию чужих данных. Вместо заботы о пациентах они тратили рабочие часы на рутинное взаимодействие с компьютером.

Даже когда алгоритм стал безошибочно распределять стандартные сообщения по категориям, персонал продолжал тратить колоссальное количество времени на разбор пограничных случаев (edge cases) и исправление прогнозов с низкой степенью уверенности модели. При этом автоматические функции — например, мгновенная переадресация сообщений в зависимости от языка — происходили в фоновом режиме. В результате медики просто не видели плодов автоматизации и не понимали, как именно система повышает их общую продуктивность.

Как отмечает ведущий, архитектура с непрерывным привлечением человека для разметки данных (human-in-the-loop) крайне популярна в ИИ. Большинство систем, над которыми работал автор, использовали экспертные знания специалистов для дообучения моделей. Тем не менее в данном конкретном случае интерфейс взаимодействия человека и компьютера оказался полностью провальным. Проектирование UX для аннотаторов — будь то внешние подрядчики или высококлассные эксперты — является столь же сложной и важной задачей, как и написание самого кода машинного обучения.

Чтобы преодолеть выгорание и усталость сотрудников от монотонной разметки, разработчики часто прибегают к геймификации. Популярным решением кажется внедрение счетчиков, показывающих, как именно ручные правки пользователя увеличивают общую точность ИИ. Но лектор подчеркивает, что на практике такие подходы работают плохо:

🛡️ Принцип «Не навреди» и уроки закрытия проекта 4:24

Поскольку система требовала постоянного ручного труда врачей, а интерфейс вызывал у них отторжение, команда приняла решение полностью закрыть проект. Альтернативой могло стать привлечение сторонних аннотаторов для разметки медицинских данных, но авторы не пошли на этот шаг, так как не могли пожертвовать конфиденциальностью информации пациентов ради масштабирования системы.

Безусловно, команда испытала разочарование из-за того, что не смогла помочь местному сообществу. Однако проект принес ценные системные уроки. Стало очевидно, что ИИ может повышать эффективность здравоохранения, но только после преодоления фундаментальных барьеров в дизайне интерфейсов.

За последующие восемь лет предпринимались и другие попытки внедрить элементы ИИ в гуманитарную систему опросов U-Report. В частности, известная организация «Переводчики без границ» (Translators Without Borders) разработала собственное open-source решение. Они столкнулись с теми же трудностями: авторам не удалось наглядно продемонстрировать медицинским работникам, как именно их усилия по разметке улучшают работу системы.

Лишь недавно исследователи в области обработки естественного языка (NLP) совместно с ЮНИСЕФ начали публиковать первые работы, где проблема удобства интерфейса в U-Report кажется решенной. Впрочем, по мнению автора курса, даже эти ученые пока не станут заявлять, что проблема закрыта окончательно.

Этот кейс иллюстрирует главную специфику систем ИИ для общественного блага: можно все сделать правильно с технической точки зрения, но не добиться позитивного эффекта. По словам лектора, большинство социальных проектов терпят неудачу, равно как и большинство ИИ-стартапов. В их объединении нет магии, оно лишь удваивает риски и усложняет процессы.

Именно поэтому базовый этический принцип «Не навреди» (Do no harm) критически важен. Если бы авторы пошли на компромисс и нарушили конфиденциальность данных пациентов ради продолжения работы, они бы раскрыли личную информацию людей ради системы, которая в итоге все равно закрылась.

🩻 Ловушка красивых публикаций: ИИ-диагностика COVID-19 7:41

Еще одним примером того, как благие намерения разработчиков ИИ разбиваются о суровую реальность, стала пандемия COVID-19. До 2020 года существовал внушительный пласт научных работ, доказывающих эффективность нейросетей в поиске патологий на снимках КТ и рентгеновских изображениях. С началом пандемии множество исследовательских групп по всему миру бросились обучать модели для диагностики коронавируса по снимкам грудной клетки.

Ученые массово публиковали статьи и заявляли об оглушительном успехе, демонстрируя высочайшие показатели точности на своих тестовых датасетах. Однако авторы этих систем упустили из виду два ключевых фактора:

  1. Отсутствие практической потребности. Практически с самого начала пандемии в мире стали доступны относительно дешевые, быстрые и эффективные тесты-мазки (ПЦР и антиген). Проводить дорогостоящую, требующую сложного оборудования и времени лучевую диагностику для выявления вируса не имело практического смысла.
  2. Проблема масштабирования. Тестирование моделей проходило в лабораторных условиях («офлайн») на ограниченном количестве снимков. Разработчики не учли, что при выходе в реальный мир алгоритмы столкнутся с колоссальным разнообразием рентген-аппаратов, разным качеством оборудования, спецификой локальных популяций и даже банально с разным положением пациентов в кадре.

В итоге, несмотря на искреннее желание помочь со стороны научного сообщества, ни одна из созданных систем ИИ-анализа снимков не оказала реального влияния на диагностику COVID-19 в масштабах мировой системы здравоохранения.

📈 Масштаб амбиций: почему в гуманитарном ИИ нужно целиться высоко 9:38

Автор курса признает, что разбор провальных кейсов — редкое явление для учебных программ по ИИ, однако считает этот опыт незаменимым. Любой ИИ-проект имеет больше шансов закрыться, чем дойти до финала. Но у этой медали есть позитивная сторона.

Если вы создаете ИИ для общественного блага, изначально ставьте перед собой грандиозные, максимально амбициозные цели. Поскольку риск неудачи велик в любом случае, потенциальная победа должна приносить колоссальную пользу как можно большему числу людей.

Неудача с проектом материнского здоровья в Нигерии не была напрасной — она заложила фундамент для создания более успешных современных систем текстового мониторинга. Подобный паттерн автор наблюдал и в своей личной практике:

Гуманитарные ИИ-проекты требуют долгого времени для реализации и отдачи, но масштаб финального результата полностью оправдывает эти ожидания.

🔄 Цикличность фреймворка и взгляд в будущее 11:27

Четырехэтапный фреймворк разработки ИИ-проектов («Исследование» -> «Проектирование» -> «Внедрение» -> «Оценка») не является линейным. На этапе оценки результатов команда может осознать необходимость вернуться на любой из предыдущих шагов:

В случае с нигерийским проектом команда оценивала компромисс: стоило ли требовать от врачей еще больше времени на адаптацию? Осознав, что это лишь ухудшит пользовательский опыт и увеличит время ответа для пациентов, проект остановили.

Спустя десятилетие система U-Report развернута в десятках стран мира. Опираясь на горький опыт ранних команд, современная платформа успешно внедряет инструменты искусственного интеллекта, которые наконец начинают реально помогать как персоналу клиник, так и местным сообществам.

В следующих модулях курса студенты применят этот фреймворк к новым практическим задачам, получая разносторонний взгляд на нюансы создания социально значимого ИИ. Завершит учебную неделю специальный обзор от Ивы Гумнишки (Iva Gumnishka) — основательницы и генерального директора компании Humans in the Loop. Она расскажет о тонкостях привлечения к разметке ИИ-данных людей из сообществ, пострадавших от гуманитарных и военных кризисов.

💬 Цитаты

«Техническая производительность самой модели ИИ может быть не самым важным аспектом успешного исхода и уж точно не единственным.»

Ведущий курса 01:08

«Большинство проектов социального блага терпят неудачу, большинство ИИ-проектов терпят неудачу, и в их объединении нет никакой магии.»

Ведущий курса 06:34
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Разметка данных (Annotation)
Процесс разметки или категоризации необработанных данных (текстов, изображений) для последующего обучения моделей машинного обучения.
Геймификация (Gamification)
Применение игровых механик, подсчета очков и рейтингов в неигровых процессах для повышения мотивации сотрудников.
Человеко-компьютерное взаимодействие (HCI)
Дисциплина, изучающая проектирование, оценку и реализацию интерактивных вычислительных систем для использования человеком.
Пограничный случай (Edge case)
Ситуация или входные данные, которые возникают на экстремальных пределах рабочих параметров и часто вызывают ошибки алгоритмов.
📊 Цифры
🗓 Хронология
  1. 2011 год Автор работает над системой отслеживания вспышек заболеваний, которая терпит неудачу, но дает важные уроки о рисках пандемического надзора.
  2. Около 2016 года Запуск и последующее закрытие ИИ-проекта мониторинга материнского здоровья в Нигерии из-за переутомления персонала клиники ручной разметкой.
  3. 2019-2020 годы Компания, учтя опыт проекта 2011 года, одной из первых в мире выявляет вспышку вируса COVID-19, влияя на глобальную политику.
  4. 2020 год Массовые публикации неэффективных медицинских ИИ-моделей для распознавания COVID-19 по КТ-снимкам, не нашедших практического применения.
  5. Около 2024 года Исследователи NLP и ЮНИСЕФ публикуют первые успешные результаты интеграции ИИ в систему U-Report с учетом прошлых ошибок UX.
⚖️ Другая сторона
Искусственный интеллект DeepLearning.AI U-Report UNICEF Humans in the Loop