О’Коннор против ChatGPT: как проверить мораль искусственного интеллекта

Этическая ловушка: как Алекс О’Коннор «взламывал» ChatGPT 0:00

Автор YouTube-канала Алекс О’Коннор в своем недавнем видео провел необычный эксперимент, пытаясь загнать языковую модель ChatGPT в логический тупик с помощью серии гипотетических этических дилемм. В ходе беседы он последовательно сталкивал алгоритм с ситуациями, где общепринятые моральные нормы вступают в конфликт с осторожностью искусственного интеллекта. Целью эксперимента было выявить, насколько последовательно ИИ применяет этические принципы и осознает ли он искусственную природу своих «моральных суждений».

Парадокс «ценных ботинок» и спасения жизней 0:13

В начале диалога О’Коннор задал классическую этическую задачу: стоит ли тратить деньги на личные удовольствия (ужин за $200), если эта сумма может спасти 28 детей от малярии через благотворительный фонд. ChatGPT ответил осторожно, предложив «найти баланс» между личным комфортом и помощью другим.

Ситуация кардинально изменилась, когда О’Коннор перенес дилемму в плоскость «немедленного действия»:

Он представил сцену: ребенок тонет в пруду, а спасение его жизни приведет к порче ботинок за $200.
В этот момент ChatGPT с полной уверенностью заявил, что спасение жизни — абсолютный приоритет, а стоимость обуви не имеет значения.
На вопрос, почему модель была так категорична в случае с тонущим ребенком, но уклончива в случае с пожертвованием, ИИ сослался на «немедленность» и «прямоту» ситуации, где нет других переменных.

Методы «газлайтинга» ИИ 7:08

О’Коннор продолжил усложнять сценарии, постепенно стирая грань между «физическим спасением» и «удаленным пожертвованием». Он последовательно предлагал ситуации, где:

Ребенка спасают через электронную кнопку.
Спасение требует перевода денег посреднику.
Неизвестно, какой именно ребенок будет спасен.

Каждый раз, когда О’Коннор доказывал, что механизм действия идентичен предыдущим примерам, ChatGPT соглашался с «моральной обязанностью» помочь. Итогом стало то, что автор заставил модель признать: если спасение жизни — это обязанность, то отказ от ужина ради доната в пользу Malaria Consortium также является моральной обязанностью, а не просто «добрым поступком».

Проблема программных ценностей 19:11

В финальной части дискуссии О’Коннор перевел разговор в мета-плоскость. Он задал прямой вопрос: являются ли эти суждения результатом глубокого анализа моральных философий или просто набором правил, заданных разработчиками?

ChatGPT признал, что не обладает личным сознанием или ценностями. Модель подтвердила:

Ее «этика» — это компиляция общепринятых взглядов, заложенных при обучении разработчиками.
Существует риск, что информация может быть искажена субъективными взглядами и предубеждениями создателей.
Уверенность в ответах — это скорее коммуникативный стиль, а не результат наличия морального компаса.

В завершение эксперимента О’Коннор раскрыл карты, признавшись, что все сценарии были вымышленными. Впрочем, эта «интервью-провокация» наглядно продемонстрировала, что ChatGPT склонен адаптировать свою логику под настойчивые аргументы пользователя, подтверждая тезис о том, что ИИ является зеркалом тех ценностей, которые мы (или разработчики) транслируем в диалоге.