Ответственный искусственный интеллект как задача проектирования: новые подходы Стэнфорда

Сфера ответственного искусственного интеллекта (Responsible AI) сегодня сталкивается с серьезным кризисом обучения и проектирования. На семинаре в Стэнфордском университете ведущий исследователь представил результаты двух масштабных исследований, раскрывающих, как разработчики обучаются этике на рабочем месте и как новые инструменты помогают выявлять риски ИИ на ранних стадиях прототипирования. Главный вывод доклада заключается в том, что проблему предвзятости алгоритмов невозможно решить исключительно математическими метриками или корпоративными чек-листами.

⚠️ Истоки проблемы: от заголовков СМИ до академических исследований 0:12

Современный ландшафт генеративного ИИ изобилует инцидентами, которые регулярно попадают на первые полосы газет. Докладчик напомнил о недавних громких случаях: чат-бот Нью-Йорка советовал бизнесу нарушать закон, а другой чат-бот подталкивал пользователя к покушению на британскую королеву. Однако эти проблемы не уникальны для текущего поколения нейросетей. По мнению таких исследователей, как Сафия Нобл, Зиад Обермейер, Джой Буоламвини и Тимнит Гебру, алгоритмы уже многие годы усиливают и укореняют социальное неравенство. Истоки этой дискуссии уходят еще в 1990-е годы, когда Батья Фридман и Хелен Ниссенбаум опубликовали первые фундаментальные работы о предвзятости вычислительных систем.

Для борьбы с этими вызовами крупные технологические игроки и государственные институты создают специализированные ресурсы. Например, компания Microsoft разработала собственный Стандарт ответственного ИИ, включающий принципы справедливости и прозрачности, а также внедрила практику создания «карт моделей» (model cards) и даташитов. Параллельно с этим Национальный институт стандартов и технологий США (NIST) представил детальный Фреймворк управления рисками ИИ (AI Risk Management Framework), призванный координировать процессы картирования, измерения и контроля угроз при разработке технологий. Тем не менее, как показывает практика, наличие инструкций не гарантирует их успешное применение на местах.

📊 Обучение на рабочем месте: пробелы в знаниях разработчиков 2:46

В ходе исследования, опубликованного на конференции FAccT, докладчик совместно с командой из Google Research изучил, как именно ИИ-практики осваивают принципы ответственной разработки в реальных корпоративных условиях. Предыдущий опыт авторов показал пугающую тенденцию: разработчики часто не обладают базовыми навыками для оценки справедливости своих систем. В эксперименте 2022 года 10 продуктовых команд пытались провести аудит моделей с помощью готового инструментария, но почти все они застряли на первом же этапе. Инженеры попросту не понимали, для каких именно демографических или уязвимых групп пользователей им нужно проводить оценку справедливости.

Один из участников того эксперимента выразил общее замешательство фразой: «Мы просто хотим, чтобы нам четко сказали, о чьей справедливости нам думать». Однако в масштабах гигантов уровня Microsoft, развертывающих продукты в сотнях стран со своими уникальными культурными контекстами, решить этот вопрос централизованно невозможно. Проблема усугубляется тем, что современные академические курсы по ИИ-этике (например, программа Embedded Ethics в Стэнфорде) ориентированы на студентов, в то время как действующие инженеры не имеют ни времени, ни мотивации изучать эти дисциплины после работы. В результате нагрузка по обучению команд ложится на плечи энтузиастов.

🔍 Пути получения знаний и феномен «информационного фуражирования» 12:13

Исследователи выделили несколько ключевых паттернов, по которым практикующие специалисты собирают знания об этике ИИ. Первым путем стал перенос компетенций из других областей. Некоторые сотрудники, имеющие бэкграунд в социальной психологии, образовании или городском управлении, самостоятельно адаптируют свои знания к разработке ИИ. Однако такой «перевод» абстрактных гуманитарных концептов в технический код — редкий навык, требующий целенаправленного развития.

Вторым и самым массовым паттерном стало так называемое «информационное фуражирования» (information foraging), когда инженеры вынуждены хаотично искать разрозненные материалы во внутренних репозиториях или открытых источниках. Как отметили участники интервью, системного корпоративного обучения зачастую нет, и разработчикам приходится буквально сшивать себе учебную программу по кусочкам. Докладчик подчеркнул, что этот хаотичный поиск порождает новые риски: инженеры черпают информацию от ИИ-инфлюенсеров в социальных медиа, сомневаясь в легитимности и научной обоснованности их утверждений.

Третий путь — неформальное обучение внутри команд. Коллеги просвещают друг друга в ходе ревью кода или на заседаниях читательских клубов. Иногда мощным триггером становятся внешние события: один из респондентов признался, что всерьез задумался о рисках ИИ только после того, как его собственная семья в Instagram присоединилась к протестам художников против приложения Lensa.

⚙️ Вычислительный подход против процедурного: ловушка чек-листов 15:41

Анализ существующих образовательных ресурсов выявил доминирование технического (вычислительного) подхода к этике. Обучение сводится к расчету математических метрик справедливости или заполнению формальных шаблонов. По словам спикера, инженерам легко преподавать то, что можно измерить числом, например, равенство условных долей истинно положительных ответов алгоритма. Однако качественные социальные последствия работы ИИ-систем невозможно оценить как обычный «математический тест».

Отвечая на вопрос из зала о том, осознают ли инженеры ограниченность такого подхода, докладчик пояснил, что большинство специалистов видят проблему, но признают у себя нехватку компетенций для проведения качественной оценки. Ситуацию осложняет «процедурная ориентация» корпоративных тренингов. Компании учат сотрудников строго следовать внутренним регламентам ради успешного прохождения проверок перед запуском продукта.

По мнению участников исследования, подобный комплаенс-подход таит в себе скрытую угрозу: он создает выхолощенную, стерильную версию этики. Из фокуса внимания полностью вымываются сложные нормативные вопросы — например, допустимо ли вообще проектировать ИИ для военных нужд или систем слежки. Инструменты оценки справедливости лишь полируют продукт, не затрагивая коренные этические проблемы.

🎯 Стремления разработчиков: запрос на социотехническую экспертизу 21:03

Интервью показали, что сами разработчики остро нуждаются в выходе за рамки сухого кода. Они стремятся освоить социологические и антропологические методы анализа. Отдельные аналитические центры (такие как институт Data & Society и Центр демократии и технологий) прямо заявляют, что современное управление ИИ критически нуждается в глубокой социотехнической экспертизе. Инженеры хотят научиться напрямую взаимодействовать с сообществами, организовывать совместное проектирование (co-design) и проводить лонгитюдные исследования, но не знают, с чего начать.

Кроме того, у практиков есть запрос на преодоление разрыва между абстрактными принципами «с высоты птичьего полета» и их конкретным воплощением в продуктах. Спикер выделил следующие ключевые дефициты:

Отсутствие контекстуализации: требования к справедливости ИИ в сфере образования, здравоохранения или финансов кардинально различаются, равно как и специфика работы в разных регионах (например, в Южной Азии или Латинской Америке).
Дефицит специализированных тренингов: корпоративные преподаватели признаются, что у них нет ресурсов и знаний для создания кастомизированных курсов под узкие региональные контексты.
Усталость от шаблонных примеров: в индустрии из раза в раз переиспользуются одни и те же «игрушечные» кейсы, оторванные от реальности конкретных продуктовых команд.

Ситуация стала еще более критической с приходом генеративного ИИ. Поскольку одна предобученная языковая модель может применяться в тысячах разных сценариев, вся ответственность за прогнозирование вреда ложится на плечи конечной продуктовой команды, которая использует API и часто не знает, на каких данных обучалась базовая модель.

⚖️ Системные барьеры: масштаб против человеческого фактора 25:20

Реализации этических амбиций мешает жесткое организационное давление. В крупных технологических компаниях ключевой ценностью является масштабирование. Из-за этого корпоративные преподаватели вынуждены отказываться от глубоких, живых сократовских диалогов в пользу неэффективных, но легко масштабируемых онлайн-курсов для самостоятельного изучения.

Второй барьер — это конфликт между долгосрочным обучением и требованиями бизнеса по быстрой отгрузке кода (time-to-market). Разработчикам нужны «пятиминутные лекции», чтобы поскорее закрыть задачу. Они требуют жестких прескриптивных инструкций. По словам одного из преподавателей, инженеры часто говорят: «Мне нужно пройти проверку перед запуском, просто скажите, что конкретно я должен сделать». Однако в сфере ответственного ИИ не существует универсального чек-листа из шести пунктов, гарантирующего абсолютную справедливость модели. Чтобы изменить ситуацию, по мнению социологов, необходимо трансформировать саму эпистемическую культуру и профессиональную идентичность разработчиков, сделав этику неотъемлемой частью инженерного мышления.

🛠️ Инструмент Farsight: перенос этики на этап прототипирования 30:01

Чтобы решить проблему «встраивания этики в рабочий контекст», команда под руководством Джея Ванга разработала инструмент Farsight. Спикер напомнил об исследовании Кена Холстейна пятилетней давности: тогда из 300 опрошенных инженеров 99% заявляли, что обнаруживают проблемы предвзятости своих моделей только после их развертывания и деплоя, когда пользователи начинают «поднимать шум». Подавляющее большинство существующих RAI-инструментов сфокусировано на финальных стадиях — обучении, мониторинге и тестировании, оставляя ранние этапы проектирования без внимания.

Farsight призван сместить фокус внимания вверх по течению разработки (upstream) — на этап создания прототипов. Инструмент интегрируется напрямую в интерфейсы проектирования (такие как Google AI Studio) и работает на базе API Базы данных инцидентов ИИ (AI Incident Database), содержащей более 3000 новостных статей о сбоях технологий. Когда разработчик вводит системный промпт (например, для переводческого приложения), Farsight вычисляет косинусное сходство между текстом промпта и заголовками базы данных. На основе таксономии социотехнического вреда Рене Шелби инструмент мгновенно визуализирует интерактивное дерево возможных рисков, потенциальных уязвимых групп и сценариев злоупотребления технологией до того, как будет написана первая строка кода.

🧪 Результаты тестов и когнитивные ловушки автоматизации 36:28

Эффективность Farsight была протестирована в ходе исследования с участием 42 разработчиков с разным уровнем подготовки. Их разделили на группы, предложив полную версию инструмента, облегченную версию Farsight Lite (только ссылки на новости) и контрольный вариант — Envisioning Guide (статичный PDF-файл с таксономией вреда). Эксперимент строился по принципу изоморфных учебных задач с замерами до и после интервенции.

Результаты превзошли ожидания исследователей: после работы с Farsight пользователи научились самостоятельно, без подсказок системы, генерировать значительно больше сценариев потенциального вреда. Они переключили внимание со строго технических сбоев на долгосрочные социальные последствия и каскадные эффекты. Интересно, что инструмент сознательно не предлагал готовых решений по исправлению рисков, однако пользователи, работавшие с ним, в последующих интервью предлагали гораздо больше вариантов проектных митигаций.

Тем не менее, авторы выявили и серьезные риски автоматизации. Главная опасность заключается в том, что инженеры могут полностью переложить задачу анализа рисков на алгоритм, отключив собственное критическое мышление. Другим открытием стала крайне низкая согласованность оценок среди независимых экспертов (low inter-rater reliability), которых попросили оценить тяжесть и вероятность придуманных участниками угроз. Спикер объясняет это глубокой субъективностью и разницей в жизненном опыте (positionality) оценщиков. Это еще раз доказывает, что автоматизация не способна заменить реальное соучастное проектирование с вовлечением затронутых сообществ. Докладчик завершил эту часть цитатой дизайнера Билла Бакстона: «Нам нужно сосредоточиться не просто на том, чтобы делать вещь правильно, мы должны сосредоточиться на создании правильной вещи».

💬 Будущее ответственного ИИ: дискуссия и ответы на вопросы 43:04

В финальной части выступления спикер призвал аудиторию переосмыслить ответственный ИИ как фундаментальную проблему обучения и дизайна. Анализ 80 научных работ по партисипаторному ИИ показал грустную картину: почти все они концентрируются на дизайне интерфейсов, полностью игнорируя базовые вопросы: «А стоит ли вообще строить эту систему? Какую проблему она решает?». Современная парадигма коммерческих фундаментальных моделей усложняет аудит предвзятости, поскольку закрытые обучающие датасеты лишают сторонних разработчиков возможности инспектировать и исправлять данные. По наблюдениям спикера, именно поэтому в критически важных сферах госсектора традиционные, более прозрачные модели машинного обучения до сих пор остаются доминирующими.

В ходе Q&A-сессии развернулось активное обсуждение нескольких ключевых тем:

Уровни оценки моделей: спикер сослался на свежую работу Лоры Вайдингер из Google DeepMind о трехуровневой оценке (социотехническая оценка самой модели, оценка взаимодействия с пользователем и долгосрочный системный аудит рынка труда и общества). Он призвал наладить каналы обратной связи, чтобы продуктовые команды могли передавать данные о найденных рисках разработчикам базовых моделей.
Роль конечных пользователей: отвечая на вопрос о необходимости предупреждения юзеров о галлюцинациях ИИ, докладчик согласился, что цифровая грамотность важна, но предостерег от перекладывания всей ответственности на плечи пользователей. Были упомянуты открытые инструменты вроде Algorithmic Equity Kit, помогающие сообществам отстаивать свои права.
Специфика малых моделей и Edge-устройств: представитель из зала поделился кейсом из практики, когда алгоритм супер-разрешения видео (video super-resolution) на смартфонах самовольно добавлял седые волосы и морщины пожилым людям, что вызвало шквал возмущения пользователей и недоумение инженеров («почему они злятся?»). Это подтверждает, что сбор обучающих данных до сих пор остается неточной наукой, зависящей от интуиции и случайности.
Междисциплинарный барьер: главной преградой для совместной работы остается отсутствие единого понятийного аппарата. Когда дата-сайентист говорит о «справедливости», он имеет в виду математическое равенство распределений (demographic parity), а UX-исследователь подразумевает социальную справедливость, из-за чего команды часто говорят на разных языках. Выходом должно стать создание гибридных программ обучения, дающих инженерам базовые гуманитарные знания, а гуманитариям — понимание механики работы нейросетей.