«Не навреди»: почему DeepLearning.AI призывает закрывать неэффективные ИИ-разработки

Разработка искусственного интеллекта для социальных нужд сопряжена с высокой долей неудовлетворительных результатов, где техническое совершенство модели часто отходит на второй план перед удобством реальных пользователей. В рамках обучающего курса от DeepLearning.AI рассматриваются практические уроки оценки ИИ-проектов, включая реальные кейсы из сферы здравоохранения в Нигерии и опыт пандемии COVID-19. Главный вывод экспертов заключается в том, что неудачи — это необходимая часть эволюции гуманитарных технологий, если разработчики строго соблюдают базовый этический принцип «Не навреди».

📊 Фаза оценки: почему технический успех ИИ не гарантирует пользу 0:02

После развертывания любой технологической системы проект неизбежно переходит в фазу оценки. На этом этапе команда должна измерить, насколько успешным оказался запуск, и донести эти результаты до ключевых стейкхолдеров. Измерение реального воздействия — деликатный процесс, критерии которого должны закладываться еще на этапе исследования проблемы через формирование четкого и детального технического задания.

В качестве сквозного примера лектор приводит проект поддержки материнского здоровья в Нигерии. Исходная проблема формулировалась следующим образом: медицинским учреждениям требовался инструмент прямой связи с матерями через текстовые опросы для мониторинга здоровья женщин и их детей. Для реализации этой задачи системе было необходимо оперативно обрабатывать огромные массивы входящих SMS-сообщений на нескольких языках, отсеивая при этом нереле спам от реальных ответов на опросы.

По мнению автора курса, технический компонент ИИ — это всегда лишь малая часть комплексного и зачастую запутанного ИТ-продукта. Именно поэтому высокая точность самой математической модели не является ни главным фактором успеха, ни гарантией позитивного исхода проекта в целом.

🛑 Крах интерфейса: как «рутина данных» погубила благородную инициативу 1:21

В кейсе с нигерийскими клиниками базовая модель искусственного интеллекта показала отличные результаты. Более того, ее точность непрерывно росла благодаря новым аннотациям и исправлениям, которые вручную вносили сотрудники клиники. С формальной точки зрения производительность труда персонала выросла: медики обрабатывали больше обращений пациентов за меньшее время.

Однако по мере развития проекта сотрудники клиники начали жаловаться на критически плохой пользовательский интерфейс (UX). Медсестры и врачи стали чувствовать себя не медицинскими специалистами, а операторами по вводу и обслуживанию чужих данных. Вместо заботы о пациентах они тратили рабочие часы на рутинное взаимодействие с компьютером.

Даже когда алгоритм стал безошибочно распределять стандартные сообщения по категориям, персонал продолжал тратить колоссальное количество времени на разбор пограничных случаев (edge cases) и исправление прогнозов с низкой степенью уверенности модели. При этом автоматические функции — например, мгновенная переадресация сообщений в зависимости от языка — происходили в фоновом режиме. В результате медики просто не видели плодов автоматизации и не понимали, как именно система повышает их общую продуктивность.

Как отмечает ведущий, архитектура с непрерывным привлечением человека для разметки данных (human-in-the-loop) крайне популярна в ИИ. Большинство систем, над которыми работал автор, использовали экспертные знания специалистов для дообучения моделей. Тем не менее в данном конкретном случае интерфейс взаимодействия человека и компьютера оказался полностью провальным. Проектирование UX для аннотаторов — будь то внешние подрядчики или высококлассные эксперты — является столь же сложной и важной задачей, как и написание самого кода машинного обучения.

Чтобы преодолеть выгорание и усталость сотрудников от монотонной разметки, разработчики часто прибегают к геймификации. Популярным решением кажется внедрение счетчиков, показывающих, как именно ручные правки пользователя увеличивают общую точность ИИ. Но лектор подчеркивает, что на практике такие подходы работают плохо:

Геймификация сама по себе быстро превращается в дополнительный фактор стресса и утомления.
Положительный эффект от игровых механик ощущают исключительно пользователи, находящиеся на самых верхних строчках таблиц лидеров.
Создание сбалансированного интерфейса, объединяющего человеческий и машинный разум, остается одной из самых сложных задач в индустрии.

🛡️ Принцип «Не навреди» и уроки закрытия проекта 4:24

Поскольку система требовала постоянного ручного труда врачей, а интерфейс вызывал у них отторжение, команда приняла решение полностью закрыть проект. Альтернативой могло стать привлечение сторонних аннотаторов для разметки медицинских данных, но авторы не пошли на этот шаг, так как не могли пожертвовать конфиденциальностью информации пациентов ради масштабирования системы.

Безусловно, команда испытала разочарование из-за того, что не смогла помочь местному сообществу. Однако проект принес ценные системные уроки. Стало очевидно, что ИИ может повышать эффективность здравоохранения, но только после преодоления фундаментальных барьеров в дизайне интерфейсов.

За последующие восемь лет предпринимались и другие попытки внедрить элементы ИИ в гуманитарную систему опросов U-Report. В частности, известная организация «Переводчики без границ» (Translators Without Borders) разработала собственное open-source решение. Они столкнулись с теми же трудностями: авторам не удалось наглядно продемонстрировать медицинским работникам, как именно их усилия по разметке улучшают работу системы.

Лишь недавно исследователи в области обработки естественного языка (NLP) совместно с ЮНИСЕФ начали публиковать первые работы, где проблема удобства интерфейса в U-Report кажется решенной. Впрочем, по мнению автора курса, даже эти ученые пока не станут заявлять, что проблема закрыта окончательно.

Этот кейс иллюстрирует главную специфику систем ИИ для общественного блага: можно все сделать правильно с технической точки зрения, но не добиться позитивного эффекта. По словам лектора, большинство социальных проектов терпят неудачу, равно как и большинство ИИ-стартапов. В их объединении нет магии, оно лишь удваивает риски и усложняет процессы.

Именно поэтому базовый этический принцип «Не навреди» (Do no harm) критически важен. Если бы авторы пошли на компромисс и нарушили конфиденциальность данных пациентов ради продолжения работы, они бы раскрыли личную информацию людей ради системы, которая в итоге все равно закрылась.

🩻 Ловушка красивых публикаций: ИИ-диагностика COVID-19 7:41

Еще одним примером того, как благие намерения разработчиков ИИ разбиваются о суровую реальность, стала пандемия COVID-19. До 2020 года существовал внушительный пласт научных работ, доказывающих эффективность нейросетей в поиске патологий на снимках КТ и рентгеновских изображениях. С началом пандемии множество исследовательских групп по всему миру бросились обучать модели для диагностики коронавируса по снимкам грудной клетки.

Ученые массово публиковали статьи и заявляли об оглушительном успехе, демонстрируя высочайшие показатели точности на своих тестовых датасетах. Однако авторы этих систем упустили из виду два ключевых фактора:

Отсутствие практической потребности. Практически с самого начала пандемии в мире стали доступны относительно дешевые, быстрые и эффективные тесты-мазки (ПЦР и антиген). Проводить дорогостоящую, требующую сложного оборудования и времени лучевую диагностику для выявления вируса не имело практического смысла.
Проблема масштабирования. Тестирование моделей проходило в лабораторных условиях («офлайн») на ограниченном количестве снимков. Разработчики не учли, что при выходе в реальный мир алгоритмы столкнутся с колоссальным разнообразием рентген-аппаратов, разным качеством оборудования, спецификой локальных популяций и даже банально с разным положением пациентов в кадре.

В итоге, несмотря на искреннее желание помочь со стороны научного сообщества, ни одна из созданных систем ИИ-анализа снимков не оказала реального влияния на диагностику COVID-19 в масштабах мировой системы здравоохранения.

📈 Масштаб амбиций: почему в гуманитарном ИИ нужно целиться высоко 9:38

Автор курса признает, что разбор провальных кейсов — редкое явление для учебных программ по ИИ, однако считает этот опыт незаменимым. Любой ИИ-проект имеет больше шансов закрыться, чем дойти до финала. Но у этой медали есть позитивная сторона.

Если вы создаете ИИ для общественного блага, изначально ставьте перед собой грандиозные, максимально амбициозные цели. Поскольку риск неудачи велик в любом случае, потенциальная победа должна приносить колоссальную пользу как можно большему числу людей.

Неудача с проектом материнского здоровья в Нигерии не была напрасной — она заложила фундамент для создания более успешных современных систем текстового мониторинга. Подобный паттерн автор наблюдал и в своей личной практике:

В 2011 году лектор работал над масштабной системой раннего обнаружения вспышек инфекционных заболеваний.
На тот момент технологии не позволили разработчикам опередить распространение инфекции, а сам проект обнажил множество опасных нюансов, связанных со слежкой за гражданами под предлогом пандемического надзора.
Восемь лет спустя именно эта компания, учтя прошлые ошибки и технологические риски, одной из первых в мире идентифицировала появление COVID-19. Эти данные легли в основу важнейших политических решений на глобальном уровне.

Гуманитарные ИИ-проекты требуют долгого времени для реализации и отдачи, но масштаб финального результата полностью оправдывает эти ожидания.

🔄 Цикличность фреймворка и взгляд в будущее 11:27

Четырехэтапный фреймворк разработки ИИ-проектов («Исследование» -> «Проектирование» -> «Внедрение» -> «Оценка») не является линейным. На этапе оценки результатов команда может осознать необходимость вернуться на любой из предыдущих шагов:

Назад к Внедрению (Implement): для точечной настройки параметров модели или глубокой переработки пользовательского интерфейса.
Назад к Проектированию (Design): если в архитектуре обнаружились фундаментальные изъяны и требуется создание новой версии системы.
Назад к Исследованию (Explore): если очевидно, что текущий подход не приносит пользы. В этом случае команда заново изучает проблему, меняет ракурс восприятия или переключается на совершенно другую задачу.

В случае с нигерийским проектом команда оценивала компромисс: стоило ли требовать от врачей еще больше времени на адаптацию? Осознав, что это лишь ухудшит пользовательский опыт и увеличит время ответа для пациентов, проект остановили.

Спустя десятилетие система U-Report развернута в десятках стран мира. Опираясь на горький опыт ранних команд, современная платформа успешно внедряет инструменты искусственного интеллекта, которые наконец начинают реально помогать как персоналу клиник, так и местным сообществам.

В следующих модулях курса студенты применят этот фреймворк к новым практическим задачам, получая разносторонний взгляд на нюансы создания социально значимого ИИ. Завершит учебную неделю специальный обзор от Ивы Гумнишки (Iva Gumnishka) — основательницы и генерального директора компании Humans in the Loop. Она расскажет о тонкостях привлечения к разметке ИИ-данных людей из сообществ, пострадавших от гуманитарных и военных кризисов.