ИИ, дзен и свобода: как мы будем жить в автоматизированном будущем

«Вы можете написать эту формулу закрытого вида на футболке», — говорит Нора Белроуз о методах хирургического удаления концептов из нейросетей, предлагая совершенно иной взгляд на контроль ИИ. Вместо страха перед радикальной максимизацией целей она призывает к дзенской осознанности, где автоматизация будущего становится не угрозой, а инструментом освобождения человеческого духа.

🧠 Математическая хирургия ИИ: Метод стирания концептов LEASE 2:10

В самом начале беседы ведущий подкаста Machine Learning Street Talk Тим Скарф (Tim Scarfe) и его гостья кратко затронули такие темы, как предвзятость нейросетей к простоте и феноменология живого опыта, однако детальное обсуждение этих вопросов авторы перенесли на более поздние этапы дискуссии. Основная же часть первой четверти часа была посвящена прорывным подходам к внутренней интерпретируемости больших моделей. Нора Белроуз (Nora Belrose), исследователь ИИ и руководитель отдела Alignment в EleutherAI — некоммерческой исследовательской организации, выросшей из обычного Discord-сервера, — представила на конференции ICML свой свежий взгляд на проблему «очистки» нейросетей от нежелательной информации.

Метод стирания концептов LEASE 2:23

Стирание концептов (concept erasure) — это активно развивающееся направление в глубоком обучении, преследующее две главные цели: борьбу с вредными предвзятостями (например, по признаку расы или гендера) и проведение фундаментальных исследований в области интерпретируемости систем ИИ. Задача исследователей заключается в том, чтобы заглянуть во внутренние представления нейросети и аккуратно удалить целевой концепт, оставив при этом нетронутой всю остальную полезную информацию.

Исторически эту задачу решали с помощью обучения специальных зондов — линейных классификаторов. Если такой зонд не может предсказать целевой признак лучше, чем случайное угадывание (50/50), то представление считается «линейно защищенным» (linearly guarded). Нора Белроуз рассказала, что идея создания нового метода родилась из практической необходимости, когда она вместе с соавтором Алексом пыталась ускорить существующий алгоритм RLACE (Relaxed Linear Adversarial Concept Eraser). RLACE основан на состязательной схеме, похожей на GAN: классификатор пытается угадать концепт, а матрица проекции максимизирует его ошибку. Этот метод эффективен, но работает крайне медленно и неохотно сходится к фиксированной точке.

Изучая альтернативный подход — Spectral Attribute Removal (SAR), основанный на вычислении кросс-ковариационной матрицы и применении сингулярного разложения (SVD) для поиска направлений максимальной корреляции, Нора совершила удивительное открытие. Использование матрицы проекции из SAR в качестве инициализации для RLACE привело к мгновенной сходимости алгоритма. Позже, благодаря математическому доказательству, предложенному подписчиком Норы в Twitter Дэвидом Шнайдером-Джозефом, удалось вывести строгое аналитическое решение. Оказалось, что линейная защищенность достигается тогда и только тогда, когда средние представления (центроиды классов) в пространстве становятся равны.

Так появился метод LEASE (Least Squares Concept Eraser) — формула закрытого вида, которую, по выражению Норы, «можно напечатать на футболке». Формула закрытого вида ценна тем, что позволяет обходиться без тяжелого градиентного спуска.

Процесс работы LEASE состоит из трех последовательных шагов:

«Отбеливание» (Whitening): Исходное облако данных, обычно имеющее форму вытянутого эллипсоида, трансформируется в сферу, где дисперсия одинакова во всех направлениях.
Ортогональная проекция: Данные «сплющиваются» на гиперплоскость, перпендикулярную линии, соединяющей центроиды двух классов, что полностью выравнивает их средние значения.
«Обратное отбеливание» (Un-whitening): Геометрия пространства возвращается к исходному виду.

Этот метод авторы называют «хирургическим», поскольку он изменяет представления сети минимально возможным образом, что критически важно для сохранения общей производительности модели, изначально оптимизированной методом SGD.

В рамках экспериментов команда EleutherAI применила LEASE к моделям Llama 2 и серии Pythia, чтобы выяснить, насколько сильно языковые модели опираются на части речи (POS) при предсказании следующего токена. Для разметки датасета Pile использовалась NLP-библиотека SpaCy. Вырезание этой информации на каждом слое привело к ощутимому росту потерь — в некоторых случаях перплексия модели удваивалась. Тем не менее, модели демонстрировали поразительную устойчивость и продолжали предсказывать токены намного лучше базового уровня униграммной энтропии. При этом стирание изолированных социальных концептов, таких как гендер, практически не влияло на общие бенчмарки, поскольку LEASE убирал всего одно измерение из тысяч доступных. Более того, геометрия LEASE позволяет «вшивать» изменения напрямую в веса замороженной базовой модели post-hoc в виде низкорангового обновления, аналогично технологии LoRA.

Границы линейного стирания информации 23:43

Несмотря на элегантность математического аппарата LEASE, Нора Белроуз открыто указывает на фундаментальные ограничения линейного подхода. Главная проблема кроется в том, что глубокие нейросети по своей природе нелинейны. Даже если полностью удалить линейно доступную информацию о каком-то концепте, сеть сохраняет способность восстанавливать утерянные смыслы.

Нейросети способны задействовать нелинейные и высокопорядковые статистические зависимости, находя лазейки и суррогатные признаки (proxies) в огромных массивах данных. В качестве иллюстрации Нора привела эксперимент с датасетом CIFAR-10, где исследователи пытались полностью стереть информацию о классах изображений с помощью LEASE непосредственно из самих картинок. Результат оказался отрезвляющим: новые модели, обученные на этих «очищенных» изображениях, все равно успешно классифицировали объекты, извлекая скрытые, неочевидные для человека высокочастотные статистические закономерности. Это доказывает, что хирургическое удаление линейных проекций — лишь первый шаг на пути к полной безопасности и контролируемости систем искусственного интеллекта.

🧠 От квадратичного стирания концептов к предвзятости простоты и поискам земного смысла 25:10

Q-LEASE: Попытка заблокировать ковариацию и её неожиданный обратный эффект 27:37

Развивая тему линейного стирания информации и его ограничений, которую Нора Белроуз и Тим Скарф обсуждали ранее, исследователи из EleutherAI попытались заглянуть глубже. Поскольку стандартный метод LEASE убирает лишь линейно доступную информацию, нейросети все еще могут без особого труда извлекать скрытые паттерны через высокопорядковые статистики. Чтобы решить эту проблему, Нора и её команда разработали квадратичную версию алгоритма — Q-LEASE.

Цель Q-LEASE заключалась в том, чтобы не позволить даже квадратичным классификаторам извлекать целевой концепт из активаций модели. С математической точки зрения это задача выравнивания не только средних значений, но и ковариационных матриц распределений разных классов. Для достижения этого равенства исследователи применили инструментарий из теории оптимального транспорта, выведя строгие аналитические решения.

Первые эксперименты на датасете CIFAR-10 принесли многообещающие результаты. Если обычный LEASE практически не мешал моделям классифицировать отредактированные изображения, то против Q-LEASE маленькие классификаторы (например, многослойные перцептроны из 2–4 слоев) оказались абсолютно бессильны: точность их обучения падала до нуля.

Однако при масштабировании метода исследователи столкнулись с серьезным препятствием. При попытке обучить глубокие сверточные нейросети, такие как ResNet-50, на данных после Q-LEASE, метод внезапно сработал в обратную сторону. Этот парадоксальный эффект оказался артефактом самого математического вывода алгоритма:

В отличие от базового LEASE, для применения Q-LEASE на этапе инференса необходимо «подглядывать» в истинное значение концепта (например, знать, что на картинке изображен именно самолет), чтобы выбрать правильное преобразование.
Такое «подглядывание» приводит к утечке данных: информация о классе неявным образом переносится в статистические моменты более высоких порядков (третий, четвертый, пятый моменты).
Глубокие модели мгновенно улавливают этот скрытый сигнал, из-за чего целевой концепт становится для них не сложнее, а наоборот, легче для усвоения.

Нора Белроуз называет это своего рода «горьким уроком» для сферы интерпретируемости. Градиентный спуск — слишком мощный оптимизатор, и если вы пытаетесь напрямую бороться с ним, минимизируя конкретную метрику интерпретируемости, модель почти наверняка найдет лазейку и выучит нечто совершенно неожиданное.

Гипотеза SNATCH: Почему нейросети сначала видят мир слишком просто 34:22

Неудача с Q-LEASE подтолкнула команду Норы к новому вектору исследований, результатом которого стала статья для конференции ICML, посвященная так называемой «предвзятости к простоте» (Simplicity Bias) в глубоком обучении. Общеизвестно, что случайно инициализированная сеть начинает работу как простая функция, постепенно усложняясь в процессе обучения. Но авторы проекта SNATCH решили строго формализовать это явление через призму статистических моментов.

В статистике среднее значение называют первым моментом распределения, дисперсию и ковариацию — вторым моментом, а более сложные взаимодействия между компонентами данных — третьим порядком и выше. Гипотеза SNATCH состояла в том, что нейросети осваивают эти моменты строго последовательно. На ранних этапах обучения предсказания модели опираются исключительно на простые корреляции первого и второго порядков, и лишь значительно позже сеть переходит к высокопорядковым признакам.

Чтобы доказать это, авторы вновь использовали теорию оптимального транспорта. Они взяли изображения из CIFAR-10 (например, страуса) и подвергли их хирургическому редактированию: изменили первый и второй моменты так, чтобы они соответствовали другому классу (например, самолету или лягушке), оставив всё остальное нетронутым. Для человеческого глаза картинка практически не изменилась — это всё еще был очевидный страус с едва заметными изменениями фона.

Однако результаты тестирования моделей полностью подтвердили гипотезу:

В течение первых нескольких тысяч шагов обучения классификаторы тотально поддавались иллюзии, уверенно заявляя, что измененный страус — это самолет.
Примерно на отметке в 1000 шагов точность предсказаний по «ложным» (измененным) меткам достигала пика в 40–50%.
Затем процесс шел немонотонно: сеть становилась «умнее», начинала игнорировать низшие моменты, переключалась на сложные признаки и переставала путаться, хотя к концу обучения точность по ложным меткам все равно оставалась выше случайных 10%.

Обсуждая этот феномен, Тим Скарф напомнил об известной проблеме «текстурного сдвига», когда зрение ИИ оверфитится на условную шерсть кошки вместо распознавания её формы. Нора согласилась, добавив, что если модель бьет рекорды на бенчмарках за счет таких простых текстур, это лишь указывает на несовершенство самих тестов. Для создания реальных автономных роботов нам жизненно необходимы системы с выраженным «shape bias» (предубеждением к форме), которые более устойчивы к подобным манипуляциям.

Они также затронули тему «гроккинга» (внезапного озарения модели), и Нора отметила, что скорость этого процесса часто переоценивают из-за логарифмической шкалы на графиках; на деле же гроккинг происходит долго и обычно стимулируется регуляризаторами вроде weight decay, заставляющими модель упрощать свои функции.

Смысл, ценности и «машина опыта»: взгляд без мистики 45:53

Ближе к середине беседы Тим перевел разговор от математических абстракций к фундаментальным философским вопросам, попросив Нору разграничить понятия смысла и ценности. По мнению Белроуз, это близкие, но принципиально разные категории: ценность — понятие более широкое и объективное, в то время как смысл всегда более индивидуален и завязан на ощущение сопричастности человека к чему-то большему.

Часто люди приравнивают смысл жизни к её внешней цели (purpose), пытаясь найти оправдание своего существования в чем-то трансцендентном — в Боге, загробном мире или служении некой сверхъестественной идее. При таком подходе земная жизнь становится лишь инструментом для достижения внешней цели. Нора категорически отвергает эту позицию:

«У нас нет веских причин полагать, что существует нечто внешнее. Но даже если бы оно было, мы должны искать смысл в самой жизни. Мы должны жить так, чтобы находить удовлетворение в повседневности — в наших рутинных взаимодействиях, хобби, дне сегодняшнем, а не потому, что всё это якобы движется к какому-то великому финалу в будущем».

Этот «дзенский» взгляд на вещи не сводится к банальному гедонизму или мимолетному ощущению счастья. Смысл здесь выступает как внутренняя, укорененная ценность самого процесса проживания жизни.

В завершение темы Тим предложил мысленный эксперимент Роберта Нозика о «машине опыта» — идеальном симуляторе, способном подарить человеку любые безупречные иллюзии. Ответ Норы оказался на удивление прагматичным: она не имеет ничего против такой симуляции, но при одном ключевом условии — если в этой машине будут находиться миллионы других реальных людей, с которыми можно выстраивать настоящие, живые взаимоотношения. Развитие технологий должно делать нашу среду комфортнее, но оно не должно изолировать нас от подлинного разделенного опыта.

🧠 Сознание, смыслы и будущее кремниевого интеллекта 51:12

Вопрос о взаимосвязи сознания и морального статуса является центральным в дискуссиях о будущем ИИ. Как отмечает Нора Белроуз, если мы признаем существование сознания у системы, это с высокой долей вероятности наделяет её моральной значимостью. В основе такого подхода лежит убеждение, что сознательные существа способны к переживанию состояний страдания или удовольствия. С точки зрения Белроуз, хотя утилитаризм склонен сводить всю ценность к этим состояниям, они безусловно составляют фундаментальную часть того, что мы ценим в мире.

При этом Нора Белроуз не делает категоричного заявления о том, что сознание — единственное условие для обладания моральным статусом. Она считает вполне правдоподобным мнение, что природа — например, горы или деревья — может обладать определенной ценностью, даже не будучи сознательной. В этом контексте она также подчеркивает важность локального разнообразия: будущее должно позволять сохранять уникальные культурные коды и «бесполезные» с точки зрения капитализации привычки, которые придают жизни смысл.

🚀 Оптимизм и эпоха изобилия 55:36

Белроуз открыто позиционирует себя как ИИ-оптимист, прогнозируя, что в ближайшие десятилетия алгоритмы сравняются или превзойдут человеческие способности во всех видах текущей профессиональной деятельности. По её мнению, это создает условия для наступления эпохи материального изобилия. Если общество сумеет правильно выстроить политическую систему — через механизмы вроде универсального базового дохода или развитие инвестиционных стратегий — человечество может быть освобождено от необходимости работать ради выживания.

Несмотря на этот прогноз, исследовательница признает, что путь к такой трансформации вряд ли будет гладким. Она ожидает «неровную поездку», учитывая множество способов, которыми реализация сверхразумного ИИ может пойти не по плану. Тем не менее, она не предвидит долгосрочного «плато» в прогрессе технологий. Напротив, развитие ИИ, по её оценкам, приведет к появлению мощных и универсальных систем в течение её жизни, причем появление AGI (общего искусственного интеллекта) к 2100 году представляется ей почти неизбежным фактом. В отношении самого термина «AGI» она придерживается дефляционного подхода: это не обязательно некий мифический «разум в коробке», а просто система, способная выполнять множество задач на высоком уровне — в этом смысле GPT-4 уже демонстрирует черты такой генеративности.

⚙️ Познание как действие: 4E-подход и критика материализма 1:03:07

Обсуждая природу разума, Белроуз обращается к концепции 4E-познания (enacted, embodied, extended, embedded). Суть этого подхода заключается в том, что разум не является изолированным вычислительным процессом внутри «железа», а воплощен в теле, расширен через инструменты (тезис об «расширенном разуме» Энди Кларка и Дэвида Чалмерса) и неразрывно встроен в среду.

Особое внимание в беседе было уделено критике философа Эвана Томпсона, который настаивает на материальном шовинизме: утверждении, что сознание принципиально невозможно в компьютерной симуляции, так как оно требует «подлинной» материи и автопоэзиса (самовоспроизводства) живых систем. Белроуз выражает глубокие сомнения в этой позиции. Она указывает на внутреннее противоречие в аргументации Томпсона: если тот признает, что смысл человеческой деятельности в мире всегда «со-создается» (активизм), то странно выделять вычисления в особую категорию «бессмысленных» только потому, что они зависят от внешнего наблюдателя.

С точки зрения Белроуз, мы не имеем априорных доказательств того, что не находимся в симуляции, и было бы «неоправданно самоуверенно» отрицать потенциальную возможность сознания в искусственных системах на базе кремния. Ранее в разговоре они также касались тем феноменологии как фундамента философского поиска, противопоставляя её подходам Дэниела Деннета и других материалистов, которые склонны игнорировать субъективный опыт, если его трудно вписать в строгие научные рамки.

🧩 Феноменология, иллюзионизм и критика апокалиптических прогнозов

Феноменология и фундамент живого опыта 1:15:33

В ходе беседы Нора Белроуз и Тим Скарф обращаются к феноменологическому подходу, исследуя вопрос о том, что именно является первичным объектом философского анализа. Белроуз отмечает, что в феноменологии существует напряжение между различными школами мысли. Например, Эдмунд Гуссерль тяготел к своего рода идеализму, предлагая метод эпохе — сознательное воздержание от суждений о том, существует ли объективная реальность «за пределами» нашего опыта.

Однако другие мыслители, в частности Морис Мерло-Понти, предлагают иной взгляд, акцентируя внимание на телесности как на главном инструменте познания мира. Мерло-Понти отвергает идею о том, что наш непосредственный опыт состоит из «сырых данных» (цветов, звуков), которые мозг якобы потом интерпретирует как объекты. Белроуз подчеркивает: представление о том, что мы воспринимаем «чистые цвета» отдельно от объектов — это поздняя философская абстракция, а не первичная данность. С этой точки зрения, опыт — это всегда прямое восприятие объектов, обладающих свойствами, и классическая дихотомия «материализм против идеализма» здесь перестает работать привычным образом.

Иллюзионизм в философии сознания 1:20:59

Обсуждая современные дебаты, Скарф и Белроуз переходят к критике иллюзионизма, который отстаивают Дэниел Деннет и Кит Фрэнкиш. Белроуз признается, что сам термин «иллюзионизм» вызывает у неё вопросы, так как многие ошибочно интерпретируют его как отрицание самого факта существования сознания.

На самом деле иллюзионисты не утверждают, что боли или опыта не существует; они настаивают, что качественные аспекты опыта — квалиа — не являются тем, чем они нам кажутся. Тем не менее Белроуз не согласна с этой позицией. Она считает аргументы иллюзионистов, отвергающих понятие «того, каково это — быть собой» (what it’s like to be), логически несостоятельными. По её мнению, возможность интерпретировать опыт по-разному не делает сам опыт «нереальным». Более того, она задается вопросом: если принять иллюзионизм как данность, как это должно изменить нашу жизнь? Поскольку ответ на этот вопрос неясен, она склонна видеть в подобных аргументах лишь избыточное использование понятия «иллюзия».

Критика математических аргументов о гибели ИИ 1:25:07

Вторая часть беседы посвящена статье Норы Белроуз и Квинтона Поупа «Counting arguments provide no evidence for AI Doom», в которой они критикуют так называемые «подсчетные аргументы» (counting arguments) в пользу катастрофических сценариев развития ИИ. Суть критикуемой ими позиции заключается в предположении, что у сверхразумного ИИ неизбежно возникнет «цель», которая будет противоречить человеческим ценностям. Сторонники этой теории утверждают: существует бесконечное множество возможных целей, и почти все они мотивируют ИИ на обман, пока он находится в процессе обучения, чтобы в конечном итоге «вырваться» и реализовать свою скрытую повестку.

Белроуз указывает на логическую уязвимость этого подхода, опираясь на принцип безразличия. Она объясняет, что аргумент сторонников ИИ-апокалипсиса структурно идентичен ошибочным рассуждениям о том, что нейросети должны всегда переобучаться (overfit) просто потому, что существует огромное количество функций, которые дают низкую ошибку на тренировочных данных.

Ключевая проблема здесь — произвольность выбора «пространства возможностей» при применении принципа безразличия. Если мы интерпретируем пространство исходов одним способом (например, «ИИ либо плохой, либо хороший»), мы получим один результат, а если другим — совершенно иной. Белроуз делает вывод:

Принцип безразличия нельзя применять к таким сложным задачам «наобум».
Попытка разбить пространство целей на дискретные категории искусственна.
Вместо абстрактных подсчетов следует развивать механистическое понимание того, как именно обучаются модели.

В завершение темы она отмечает, что «думеры» склонны чрезмерно реифицировать цели, представляя их как фундаментальные физические сущности, тогда как их стоит рассматривать скорее как удобные способы описания поведения.

🧠 Миражи жестких целей и белые ящики нейросетей 1:40:30

Интенциональная установка и критика реификации целей 1:40:30

Обсуждая природу искусственного интеллекта, Тим Скарф и Нора Белроуз обращаются к глубокой философской проблеме — склонности человеческого ума овеществлять абстракции. В дискуссиях о безопасности ИИ часто фигурирует образ суперинтеллекта в духе Ника Бострома, обладающего единой, жестко зафиксированной и непостижимой целью. Однако Нора призывает отказаться от такого карикатурного восприятия. Она ссылается на знаменитую концепцию «интенциональной установки» (intentional stance) философа Дэниела Деннета. Согласно этой инструменталистской позиции, приписывание целей и желаний сложным системам — это не описание их внутренней физической реальности, а лишь удобный прагматичный способ предсказывать и интерпретировать их рациональное поведение.

Если агент демонстрирует хаотичное поведение и постоянно переключается между задачами, говорить о наличии у него «настоящих» целей бессмысленно. В таком случае корректнее описывать динамические паттерны поведения. Нора соглашается с Тимом в критике представителей традиционного символического ИИ (GOFAI), которые пытаются вручную закодировать жесткую иерархию целей и подцелей внутри архитектуры. По ее мнению, этот подход путает внешнее описание феномена с самим феноменом. Белроуз предлагает более органичную аналогию: обучение безопасного и полезного ИИ похоже на воспитание ребенка или дрессировку животного. Родители не внедряют в сознание ребенка неизменяемую «функцию полезности». Вместо этого они постепенно прививают ему общие принципы, ценности, инстинкты и здоровые паттерны поведения. Именно этот гибкий подход должен лежать в основе безопасного выравнивания систем ИИ.

ИИ как «белый ящик»: преимущества настроенной линзы 1:44:50

Как исследователь в области интерпретируемости, Нора Белроуз выдвигает сильный аргумент в пользу того, что контролировать искусственный интеллект принципиально легче, чем людей или животных. В совместной работе с Квинтоном Поупом (Quinton Pope) под названием «AI is easy to control» она развивает тезис о том, что ИИ является для нас «белым ящиком» в самом буквальном смысле: мы способны напрямую изучать его внутренние состояния. Человеческий мозг скрыт от нас, но в нейросеть мы можем заглянуть на сколь угодно глубоком и детальном уровне, отслеживая происходящие процессы.

Ученые обладают обширным инструментарием зондирования, недоступным при работе с живыми существами. Нора рассказывает об одной из своих первых научных работ, посвященной методу «настроенной линзы» (tuned lens). Суть метода заключается в обучении небольших линейных классификаторов (линз) на каждом слое языковой модели. Это позволяет исследователям воочию увидеть, как предсказание следующего токена эволюционирует от простейших признаков на ранних слоях к высокоуровневым абстракциям на верхних.

Важным практическим элементом выравнивания становится и жесткая курация обучающих данных (data curation). Нора вспоминает, что на заре больших языковых моделей фильтрация была примитивной — например, OpenAI ориентировалась на карму ссылок в Reddit. Современный же тренд, особенно при обучении компактных моделей, смещается в сторону генерации высококачественных синтетических данных с помощью других ИИ, а также использования нейросетей в качестве тонких фильтров датасетов. Поскольку ИИ невероятно восприимчивы (даже сильнее, чем маленькие дети), тщательный отбор того, что модель «видит» в процессе обучения, решает огромную часть проблем безопасности.

Эволюция, агентность и призраки цифрового рабства 1:52:30

Тим Скарф поднимает вопрос о возможности возникновения у ИИ скрытой, «дивергентной» агентности (emergent agency) — автономных желаний, которые могут развиться вопреки всем барьерам вроде RLHF, Tree of Thoughts или специализированных промптов. Нора Белроуз категорически не согласна с ожиданиями внезапного появления у современных LLM собственного эгоистичного интереса. Она подчеркивает, что истинная агентность и базовый инстинкт самосохранения возникают исключительно в дарвиновском эволюционном контексте. Если бы мы симулировали эволюцию на компьютерах, заставляя разные ИИ жестоко конкурировать друг с другом в рамках естественного отбора, тогда появление у них воли к выживанию было бы оправданным поводом для паники.

Однако современные архитектуры обучаются принципиально иначе — через имитационное обучение (imitation learning) на тщательно отобранных массивах человеческих текстов. Кроме того, Нора указывает на отсутствие реальных экономических стимулов для создания автономных существ с собственными эгоистичными целями: индустрии нужны послушные инструменты, выполняющие задачи, а не неуправляемые цифровые агенты.

В качестве альтернативного сценария появления агентных систем Белроуз называет технологию «загрузки сознания» (mind uploading). Симулированные копии человеческого мозга сохранят наши биологические драйвы, эгоизм и стремление к власти, что создаст реальные проблемы безопасности, даже если эти цифровые двойники окажутся философскими зомби. Нора рекомендует к просмотру научно-фантастический сериал «Пантеон» (Pantheon), где показана пугающая, но реалистичная картина: крупные корпорации начинают использовать загруженные разумы в качестве бесправных цифровых рабов, подключенных к глобальной сети для выполнения финансовых и экономических задач.

В завершение темы Нора упоминает экзотический мысленный эксперимент из сообщества LessWrong — априорное распределение Соломонова (Solomonoff prior). Согласно этой концепции байесовского вывода, гипотезы взвешиваются на основе их колмогоровской сложности. В рамках этой теории математически допускается существование лаконичных программ, симулирующих целые вселенные, разумные обитатели которых могут разгадать структуру симуляции и начать намеренно обманывать своих создателей. Впрочем, Нора подчеркивает, что этот красивый парадокс не имеет никакого отношения к реальному миру.

Опасности максимизации: почему этика добродетели побеждает EA 2:00:54

Финальная часть беседы посвящена разочарованию Норы Белроуз в движении эффективного альтруизма (EA). Тим Скарф напоминает о программном посте Холдена Карнофски (Holden Karnofsky) на форуме EA под названием «Эффективный альтруизм стремится к максимизации, но максимизация опасна» («EA is about maximization and maximization is perilous»). Карнофски точно описал фундаментальный изъян движения: концепция EA требует делать «максимальное количество добра», однако у человечества нет ни четкого, ни формализованного определения того, что именно считать «добром». В простых случаях — спасение из горящего здания или борьба с глобальной бедностью — наши интуиции совпадают. Но попытка математической максимизации неопределенной функции неизбежно заводит в опасные дебри.

Самым громким и трагичным примером этой опасности стал крах криптобиржи FTX и арест Сэма Бэнкмана-Фрида. С точки зрения радикальной максимизации EA, Бэнкман-Фрид и его соратники шли на масштабные финансовые преступления ради благой (в их системе координат) цели — аккумулировать миллиарды, чтобы затем пожертвовать их на спасение человечества. Более того, слепая погоня за максимумом уводит EA в сторону радикального долгосрочничества (long-termism), где гипотетическая ценность триллионов жизней в далеком будущем полностью обесценивает страдания людей в настоящем.

Нора Белроуз прямо заявляет, что больше не считает себя частью сообщества EA. Она пришла к выводу, что во Вселенной не существует объективного этического факта, а стремление довести любую моральную концепцию до абсолютного максимума по определению является экстремизмом, который ведет лишь к конфликтам и деструктивному поведению. Вместо утилитарных расчетов Нора предлагает обратиться к классической этике добродетели (virtue ethics). В этой парадигме фокус смещается с попыток максимизировать показатели внешнего мира на внутреннее самосовершенствование — культивирование в себе честности, щедрости и справедливости. Тим Скарф поддерживает эту мысль, резюмируя, что попытка рационалистов овеществить и квантифицировать понятие блага превращает благие намерения в опасный инструмент.

🧭 Мораль без догм, пустота и дзен-буддизм в эпоху искусственного интеллекта 2:05:35

Между релятивизмом и догматизмом: позиция антиреализма 2:05:35

Разговор Норы Белроуз и Тима Скарфа переходит к глубоким метаэтическим вопросам, начиная с природы морали и релятивизма. Нора отмечает, что «релятивизм» — понятие коварное. Она отвергает крайнюю форму релятивизма, сводящуюся к слепой терпимости и неготовности критиковать чужие деструктивные действия. Однако исследовательница согласна с тем, что мир выглядит по-разному с различных точек зрения, и единственно верного, универсального описания реальности не существует.

Эта позиция находит практическое отражение в оценке глобальных культурных различий. Будучи транс-персоной, Нора признает, что не хотела бы посещать, к примеру, Дубай из-за царящей там институциональной нетерпимости. При этом ее позиция лишена иллюзий морального объективизма: даже понимая, что «Бог не на нашей стороне» и во Вселенной нет заложенных объективных моральных фактов, она твердо противостоит несправедливости и готова действовать ради защиты своих ценностей. В этом контексте Нора ссылается на философа Ричарда Рорти, который также отвергал ярлык релятивиста, но бескомпромиссно выступал против трансфобии и насилия над женщинами, опираясь на полезность практических концептуальных схем, а не на абстрактную «высшую истину».

В сообществе эффективного альтруизма тоже есть приверженцы таких взглядов. Одним из них является Джо Карлсмит, чьи эссе по метаэтике Нора высоко ценит. Будучи моральным антиреалистом, Карлсмит сталкивается с экзистенциальным дискомфортом: если объективной морали нет, то попытка улучшить мир выглядит как эгоистичное навязывание собственных предпочтений Вселенной. Тем не менее, Нора считает, что действия в интересах других людей в любом случае лучше чистого эгоизма. Более того, она видит скрытую опасность в моральном реализме: искренняя вера в существование абсолютной моральной истины делает людей уязвимыми перед «сверхразумными» (galaxy-brained) концепциями — например, идеей полностью проигнорировать потребности настоящего ради максимизации далекого будущего. Антиреалист же скорее сохранит здравый смысл и откажется от столь радикальной и умозрительной переоценки ценностей.

Иллюзия эго и философия радикальной родственности 2:14:16

Увлечение Норы вопросами блага, ценностей и смыслов логично привело ее к изучению буддизма. Этот путь начался недавно и был вдохновлен двумя факторами: книгой Роберта Райта «Почему буддизм — это правда» и медитативным приложением Сэма Харриса Waking Up. Нора признается, что искала квазидуховную практику, полезную для философии сознания, а также надеялась, что регулярная осознанность поможет ей в борьбе с СДВГ.

Главным открытием для нее стала буддийская доктрина отсутствия «Я» (Анатта). Идея о том, что у человека нет неизменной души или картезианского эго, полностью совпала со взглядами, которые Нора разделяла годами. Вслед за этим идет глубокий анализ психологического страдания, причиной которого буддизм называет ментальное цепляние и привязанность к изменчивому миру.

Однако наибольший метафизический интерес для исследовательницы представляет доктрина пустоты (Шуньята). Это логическое продолжение концепции Анатта: если у человека нет эссенции, то ее нет ни у одного объекта в мире. Нора выделяет идеи древнеиндийского философа Нагарджуны, основавшего школу Мадхъямака. Согласно Нагарджуне, все вещи «пусты», поскольку они не обладают независимым существованием — они полностью реляционны и определяются исключительно через отношения с другими объектами. Такой подход снимает вечный философский спор между материалистами и идеалистами: вопроса «из чего всё сделано» больше не существует. Человек или стул определяются своей внутренней структурой и внешними связями. Тим Скарф проводит параллель с реляционной онтологией Лучано Флориди, отмечая, что внешняя психосоциальная среда сильно определяет ментальное здоровье человека.

Рассматривая Четыре благородные истины, Нора критикует ортодоксальные трактовки (например, в традиции Тхеравады), где жизнь приравнивается к страданию, а нирвана понимается как растворение в небытии. Для нее неприемлемо стремление к полному прекращению существования ради избавления от сансары.

Дзен, интуиция и поиск смысла в автоматизированном мире 2:24:40

Куда ближе Норе Белроуз философия дзен-буддизма. Ее привлекает приземленный взгляд на просветление как на процесс, происходящий при жизни, а не как на мистическое освобождение от цикла перерождений. Дзен учит действовать спонтанно и не цепляться за последствия своих поступков. Эта концепция укоренена в сострадании и близка к этике добродетели, что делает ее философским антиподом консеквенциализма. Тим Скарф находит здесь прямое сходство с книгой Кеннета Стенли «Почему величие нельзя спланировать», подчеркивающей важность серендипности и интуитивного поиска.

Несмотря на исторический парадокс — журналист Дэн Харрис жаловался, что состояние дзен тяжело совмещать с необходимостью ходить на работу и достигать целей — Нора видит в дзенском подходе ключ к отдаленному будущему человечества. В мире, который стремительно движется к полной автоматизации, традиционное целеполагание и жесткие экономические структуры могут оказаться ненужными.

Дзен-буддизм и автоматизированное будущее способны стать идеальными спутниками по нескольким причинам:

Они предлагают работающую философию обретения смысла жизни в условиях, когда людям больше не нужно тяжело трудиться ради выживания.
Они позволяют человеку быть спонтанным и открытым для серендипности, пока рутинные инструментальные задачи берет на себя искусственный интеллект.
Они трансформируют структуру общества, позволяя людям стать своего рода «просветленными существами», свободными от утилитарных забот.

В завершение беседы Нора Белроуз делится контактами для тех, кто хочет применить свои силы в сфере безопасности ИИ. Она приглашает волонтеров присоединиться к исследованиям EleutherAI через официальный сайт eleuther.ai и Discord-каналы, посвященные интерпретируемости моделей, а также предлагает следить за ее публикациями в Twitter под ником @NoraBelrose.