Тан Чжи Сюань: «ИИ не должен просто угадывать наши желания — он должен соблюдать социальные нормы»

The Cognitive Revolution 2,1 тыс. 1 ч 54 мин 4 мин 30.11.2024
Главное

Тан Чжи Сюань, исследователь из Массачусетского технологического института (MIT), в беседе с ведущим подкаста The Cognitive Revolution Нейтаном Лабенцем ставит под сомнение фундамент современной безопасности ИИ — обучение через человеческие предпочтения (RLHF). Он предлагает перейти от «максимизации полезности» к контрактной модели, где ИИ обучается соблюдать социальные нормы и играть конкретные профессиональные роли, опираясь на восточную философию, когнитивистику и байесовское программирование.

🧠 Проблема парадигмы предпочтений 0:00

Тан Чжи Сюань утверждает, что доминирующий сегодня подход к выравниванию (alignment) ИИ, основанный на Reinforcement Learning from Human Feedback (RLHF), страдает от глубоких теоретических и практических изъянов . По его мнению, рассматривать ИИ исключительно как «максимизатор ожидаемой полезности» — значит упрощать человеческую природу.

Основные аргументы против «предпочтенческого» подхода:

Тан Чжи Сюань подчеркивает, что разработчики уже интуитивно отходят от чистых предпочтений, внедряя «Конституционный ИИ» (Constitutional AI), где задаются конкретные нормативные стандарты (например, «не быть токсичным»), а не просто «нравиться пользователю» .

🎭 ИИ как исполнитель ролей: контрактный подход 36:12

В своей работе «Beyond Preferences in AI Alignment» Тан Чжи Сюань и его соавторы предлагают заменить модель «ИИ-бога», максимизирующего желания владельца, на модель профессионала, соблюдающего нормы . По его мнению, мы должны воспринимать ИИ не как универсальный разум, а как систему, выполняющую специфическую социальную функцию (врач, учитель, ассистент).

Ключевые аспекты этой концепции:

  1. Профессиональные стандарты: Как юристы или врачи следуют этическим кодексам независимо от личных симпатий клиента, так и ИИ должен соблюдать нормы, принятые обществом для данной роли .
  2. Контрактуализм: Тан Чжи Сюань опирается на идеи философа Тима Скэнлона. Выравнивание должно основываться на принципах, которые никто не может обоснованно отвергнуть (reasonable rejection) .
  3. Децентрализация: Собеседники сошлись во мнении, что единая «глобальная конституция» ИИ невозможна. Вместо этого нормы должны быть локальными и контекстуальными .

Примером служит домашний робот: вместо того чтобы максимизировать абстрактное «счастье» хозяина, он должен соблюдать четкие правила — не сталкиваться с людьми и не разбивать хрупкие предметы, что гораздо проще формализовать в коде .

🤖 Технический механизм: Байесовская индукция правил 1:15:30

Во второй части интервью Тан Чжи Сюань представил техническую работу, демонстрирующую, как агенты ИИ могут учиться социальным нормам в «играх Маркова» (Markov games) .

Механизм обучения работает следующим образом:

Тан Чжи Сюань считает, что этот метод можно масштабировать, используя LLM как классификатор нарушений правил в более сложных, текстовых мирах .

🌏 Геополитика и взгляд из Сингапура 6:44

Тан Чжи Сюань, выросший в Сингапуре, привносит в дискуссию критический взгляд на западную философскую монополию. Он называет себя «постколониальным мыслителем» и утверждает, что для безопасного ИИ необходим философский плюрализм, включающий конфуцианские и буддийские традиции .

Его оценки текущей ситуации:

🛡️ Безопасность и «Гарантированный ИИ» 1:44:14

Тан Чжи Сюань является соавтором работы о «Гарантированно безопасном ИИ» (Guaranteed Safe AI). Он убежден, что для критических систем (военное управление, энергетика) нельзя полагаться на вероятностные модели вроде RLHF .

Его прогнозы по безопасности:

💬 Цитаты

«Люди знают, что выученная функция полезности не идеально отражает то, чего они на самом деле хотят, и это ведет к проблемам чрезмерной оптимизации.»

Тан Чжи Сюань 0:25

«Я думаю, мы не достигнем автоматизации 50-80% промышленной экономики еще десятилетие или два.»

Тан Чжи Сюань 0:53

«Вместо того чтобы быть ИИ-богом, система должна соответствовать минимальным моральным стандартам, которые общество согласится ей позволить.»

Тан Чжи Сюань 1:06
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Контрактуализм
Этическая теория, согласно которой моральные правила определяются соглашением между людьми для взаимной выгоды.
Байесовская индукция правил
Метод вывода общих закономерностей или правил на основе неполных данных с использованием теории вероятностей Байеса.
Игры Маркова
Математическая модель взаимодействия нескольких агентов, где состояние среды меняется в зависимости от их действий.
Трагедия общин
Ситуация, когда индивидуальные потребители, действуя в своих интересах, истощают общий ограниченный ресурс.
📊 Цифры
🗓 Хронология
  1. 2022 Выход статьи о Конституционном ИИ (Anthropic).
  2. 2024 Публикация работ Тана Чжи Сюаня о выравнивании через роли и обучении нормам.
  3. 2026-2028 Прогноз Сэма Альтмана и Дарио Амодеи о достижении уровня Nobel Prize интеллекта (Тан Чжи Сюань относится к этому скептически).
⚖️ Другая сторона
Искусственный интеллект Tan Zhi Xuan AI alignment Bayesian rule induction The Cognitive Revolution RLHF