Тан Чжи Сюань, исследователь из Массачусетского технологического института (MIT), в беседе с ведущим подкаста The Cognitive Revolution Нейтаном Лабенцем ставит под сомнение фундамент современной безопасности ИИ — обучение через человеческие предпочтения (RLHF). Он предлагает перейти от «максимизации полезности» к контрактной модели, где ИИ обучается соблюдать социальные нормы и играть конкретные профессиональные роли, опираясь на восточную философию, когнитивистику и байесовское программирование.
🧠 Проблема парадигмы предпочтений 0:00
Тан Чжи Сюань утверждает, что доминирующий сегодня подход к выравниванию (alignment) ИИ, основанный на Reinforcement Learning from Human Feedback (RLHF), страдает от глубоких теоретических и практических изъянов . По его мнению, рассматривать ИИ исключительно как «максимизатор ожидаемой полезности» — значит упрощать человеческую природу.
Основные аргументы против «предпочтенческого» подхода:
- Искажение реальности: человеческие предпочтения противоречивы, изменчивы и часто не поддаются агрегации .
- Проблема прокси-целей: выученная функция вознаграждения является лишь грубым приближением к тому, чего люди хотят на самом деле. Чрезмерная оптимизация по такому «плохому прокси» ведет к патологическому поведению системы .
- Несоответствие теории и практики: современные большие языковые модели (LLM) технически не являются чистыми максимизаторами полезности; они скорее представляют собой «политики», которые пытаются имитировать человеческие ответы, удерживаясь в рамках определенных ограничений .
Тан Чжи Сюань подчеркивает, что разработчики уже интуитивно отходят от чистых предпочтений, внедряя «Конституционный ИИ» (Constitutional AI), где задаются конкретные нормативные стандарты (например, «не быть токсичным»), а не просто «нравиться пользователю» .
🎭 ИИ как исполнитель ролей: контрактный подход 36:12
В своей работе «Beyond Preferences in AI Alignment» Тан Чжи Сюань и его соавторы предлагают заменить модель «ИИ-бога», максимизирующего желания владельца, на модель профессионала, соблюдающего нормы . По его мнению, мы должны воспринимать ИИ не как универсальный разум, а как систему, выполняющую специфическую социальную функцию (врач, учитель, ассистент).
Ключевые аспекты этой концепции:
- Профессиональные стандарты: Как юристы или врачи следуют этическим кодексам независимо от личных симпатий клиента, так и ИИ должен соблюдать нормы, принятые обществом для данной роли .
- Контрактуализм: Тан Чжи Сюань опирается на идеи философа Тима Скэнлона. Выравнивание должно основываться на принципах, которые никто не может обоснованно отвергнуть (reasonable rejection) .
- Децентрализация: Собеседники сошлись во мнении, что единая «глобальная конституция» ИИ невозможна. Вместо этого нормы должны быть локальными и контекстуальными .
Примером служит домашний робот: вместо того чтобы максимизировать абстрактное «счастье» хозяина, он должен соблюдать четкие правила — не сталкиваться с людьми и не разбивать хрупкие предметы, что гораздо проще формализовать в коде .
🤖 Технический механизм: Байесовская индукция правил 1:15:30
Во второй части интервью Тан Чжи Сюань представил техническую работу, демонстрирующую, как агенты ИИ могут учиться социальным нормам в «играх Маркова» (Markov games) .
Механизм обучения работает следующим образом:
- Наблюдение за аномалиями: Агент следит за другими участниками среды. Если он видит, что другой агент намеренно отказывается от ресурса (например, не съедает яблоко, хотя голоден), он делает вывод, что на поведение наложено ограничение или норма .
- Индукция правил: Используя байесовское программирование, агент перебирает пространство возможных правил (в эксперименте их было 72), чтобы найти то, которое лучше всего объясняет «странное» поведение окружающих .
- Соблюдение норм: Агент включает соблюдение выявленной нормы в свою функцию вознаграждения. В эксперименте это позволило популяциям агентов избегать «трагедии общин» (например, не истощать запасы рыбы в озере) без внешнего программирования .
Тан Чжи Сюань считает, что этот метод можно масштабировать, используя LLM как классификатор нарушений правил в более сложных, текстовых мирах .
🌏 Геополитика и взгляд из Сингапура 6:44
Тан Чжи Сюань, выросший в Сингапуре, привносит в дискуссию критический взгляд на западную философскую монополию. Он называет себя «постколониальным мыслителем» и утверждает, что для безопасного ИИ необходим философский плюрализм, включающий конфуцианские и буддийские традиции .
Его оценки текущей ситуации:
- Скепсис относительно AGI: Тан Чжи Сюань полагает, что мы не увидим полноценной автоматизации экономики еще 10–20 лет . Он считает, что разработчики недооценивают сложность моторного интеллекта (физического труда) и переоценивают надежность текущих LLM .
- Против «государственного капитализма»: Опыт жизни в Сингапуре заставил его скептически относиться к сильному государственному контролю над ИИ. Он опасается переплетения интересов элит и выступает за децентрализованные решения .
- Критика позиции Сэма Альтмана: Тан Чжи Сюань не согласен с утверждением Альтмана о том, что есть только два пути развития ИИ (западный и китайский). Он считает, что существует «третий путь» — плюралистичный и основанный на локальных сообществах .
🛡️ Безопасность и «Гарантированный ИИ» 1:44:14
Тан Чжи Сюань является соавтором работы о «Гарантированно безопасном ИИ» (Guaranteed Safe AI). Он убежден, что для критических систем (военное управление, энергетика) нельзя полагаться на вероятностные модели вроде RLHF .
Его прогнозы по безопасности:
- Дифференцированное ускорение: Необходимо ускорять разработку формально верифицируемых, узкоспециализированных систем, которые будут вытеснять опасные «черные ящики» в экономике .
- Военные риски: Самым опасным сценарием исследователь считает интеграцию ИИ без гарантий безопасности в цепочки военного командования, что может привести к неконтролируемой эскалации конфликтов на скоростях, недоступных человеку .
- Специализация против монолитов: Несмотря на успех моделей вроде GPT-4, Тан Чжи Сюань предсказывает возврат к специализации. Он считает, что «центральная когниция» — это миф, и будущее за набором высокоэффективных модулей, каждый из которых лучше монолита справляется со своей узкой ролью .