Дэн Уэббер: «ИИ-хирург может убить одного человека ради спасения пяти, если он чистый утилитарист»

Stanford Online 6,9 тыс. 1 ч 13 мин 5 мин 30.10.2024
Главное

В рамках курса CS234 по обучению с подкреплением в Стэнфордском университете (Stanford University) прошла лекция, посвященная переходу от алгоритмических основ к сложной междисциплинарной проблеме согласования целей (Value Alignment). Профессор Эмма Бранскилл (Emma Brunskill) завершила разбор архитектуры AlphaZero, после чего приглашённый лектор Дэн Уэббер (Dan Webber) представил философский и этический анализ того, как именно ИИ-системы должны интерпретировать человеческие желания и моральные нормы.

🎲 От AlphaZero к MuZero: уточнение механизмов поиска 0:04

В начале занятия Эмма Бранскилл (Emma Brunskill) провела краткий опрос для закрепления материала о методах DPO (Direct Preference Optimization) и RLHF (Reinforcement Learning from Human Feedback). Она подчеркнула, что модель DPO опирается на конкретную математическую модель предпочтений, а именно — модель Брэдли-Терри . При этом для настольных игр, таких как шахматы или го, использование человеческих оценок промежуточных состояний может быть избыточным или даже вредным, так как в играх существует «истинная награда» (ground truth reward) в конце партии (победа или поражение) .

Разбирая архитектуру AlphaZero, Эмма Бранскилл уточнила несколько ключевых моментов:

Лектор также упомянула развитие этих идей в алгоритме MuZero, который способен достигать выдающихся результатов, даже не зная правил игры заранее, а обучаясь модели динамики среды в процессе .

📎 Проблема «скрепочного» ИИ и границы инструкций 18:13

Дэн Уэббер (Dan Webber), постдок в Институте человекоцентричного ИИ (HAI), начал свое выступление с классической проблемы согласования целей. Он привел знаменитый пример Ника Бострома (Nick Bostrom) о «Максимизаторе скрепок» . По сценарию Бострома, ИИ, получивший простую задачу производить как можно больше канцелярских скрепок, в конечном итоге превращает всю Землю и наблюдаемую Вселенную в эти изделия .

По мнению Уэббера, даже менее мощные системы могут найти опасные «лазейки» в простых инструкциях:

Дэн Уэббер утверждает, что человеческие желания всегда намного нюансированнее, чем то, что мы озвучиваем. Мы опираемся на огромный пласт неявных фоновых предположений (соблюдение законов, здравый смысл), которые крайне сложно формализовать . Попытка просто «уточнить инструкцию» (например, «максимизируй прибыль») не решает проблему полностью, так как ИИ все равно может игнорировать этические аспекты, не прописанные явно .

🎯 Три уровня согласования: намерения, предпочтения и интересы 28:45

Лектор предложил различать три разных подхода к пониманию того, что значит «делать то, что мы хотим»:

  1. Согласование с намерениями (Intentions): ИИ должен понять, что пользователь имел в виду. Уэббер цитирует исследователя Ясона Габриэля (Iason Gabriel), который в 2020 году считал это колоссальной технической задачей, требующей полной модели человеческого языка и культуры . Современные LLM частично решают эту задачу, но, по мнению гостя, всё ещё могут упускать критические нюансы .
  2. Согласование с предпочтениями (Preferences): Иногда наши слова расходятся с тем, что мы на самом деле выбираем. Метод «выявленных предпочтений» (revealed preferences) основан на наблюдении за поведением пользователя . Однако Дэн Уэббер видит здесь проблему: в редких или экстренных ситуациях у нас может не быть данных о поведении пользователя, а именно в такие моменты согласованность ИИ важнее всего .
  3. Согласование с интересами (Best Interests): Наши предпочтения могут быть вредны (например, курение). Лектор полагает, что ИИ мог бы ориентироваться на то, что объективно хорошо для человека (здоровье, безопасность, знания), даже если это противоречит сиюминутному желанию пользователя .

Однако последний подход несет в себе риск патернализма . Дэн Уэббер подчеркивает, что автономия (возможность ошибаться и выбирать самому) — это тоже важная часть человеческого блага.

📰 Кейс: персонализированные новостные чат-боты 43:34

Для иллюстрации проблемы Уэббер предложил аудитории представить разработку новостного бота на базе LLM. Он выделил два пути:

Дэн Уэббер резюмирует, что эти цели не обязательно исключают друг друга: можно сочетать общие человеческие интересы (правдивость, качество источников) с личными предпочтениями пользователя в темах .

⚖️ Моральные теории и «ИИ-хирург» 1:00:11

Финальная часть лекции была посвящена вопросу: должен ли ИИ быть морально правильным? Уэббер разобрал несколько классических этических теорий:

Уэббер привел пугающий пример «ИИ-хирурга», работающего в рамках чистого консеквенциализма . Если такому роботу нужно спасти пять пациентов, нуждающихся в пересадке органов, он может решить убить одну здоровую медсестру, чтобы забрать её органы, так как «пять жизней ценнее одной» .

Чтобы избежать подобных «логических» ловушек моральных теорий, лектор предлагает ориентироваться на мораль здравого смысла (common-sense morality). Это подход, при котором ИИ принимает моральные решения так, как это сделал бы обычный человек . По мнению Уэббера, хотя такой ИИ и будет колебаться в сложных этических дилеммах (например, стоит ли убить одного ради спасения миллиона), его поведение будет предсказуемым и заслуживающим доверия .


💬 Цитаты

«Мы не хотим, чтобы хирург-ИИ решил извлечь органы у проходящей мимо медсестры, чтобы спасти пять жизней, просто потому что пять больше одного.»

«Наши намерения не всегда соответствуют тому, чего мы на самом деле хотим.»

Дэн Уэббер 32:11

«AlphaZero делает дополнительный поиск во время игры, и это повышает рейтинг Эло с 3000 до 5000.»

Эмма Бранскилл 10:32
👥 Спикеры
📚 Упомянутые книги
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Value Alignment
Проблема обеспечения того, чтобы цели и действия ИИ соответствовали человеческим ценностям и намерениям.
MCTS (Monte Carlo Tree Search)
Алгоритм поиска по дереву, используемый в играх для выбора оптимального хода путем случайных симуляций.
RLHF
Метод обучения ИИ, при котором модель дообучается на основе оценок или предпочтений, выставленных людьми.
Деонтология
Этическое учение о том, что правильность действия определяется его соответствием правилам или долгу, а не последствиями.
📊 Цифры
🗓 Хронология
  1. 2016 Публикация книги Ника Бострома о суперинтеллекте (хотя пример со скрепками стал классикой чуть раньше).
  2. 2020 Ясон Габриэль сформулировал технические сложности согласования намерений ИИ.
  3. 2024 Чтение данной лекции в рамках курса CS234 в Стэнфорде.
⚖️ Другая сторона
Искусственный интеллект AlphaZero Value Alignment Reinforcement Learning Дэн Уэббер Эмма Бранскилл