# GSI: как математически доказать, что искусственный интеллект не будет представлять угрозы

Источник: https://www.youtube.com/watch?v=fyVrnbn4EWA
Канал: The Cognitive Revolution
Опубликовано: 17.07.2024

---

В эпоху стремительного развития больших языковых моделей мир столкнулся с парадоксом: мы создаем системы с невероятными возможностями, но не имеем надежных инструментов для предсказания их поведения в критических ситуациях. Современный подход к безопасности ИИ во многом напоминает «черный ящик»: модель обучается, а затем тестируется на наличие ошибок, которые разработчики пытаются исправить постфактум. В недавнем выпуске подкаста The Cognitive Revolution эксперты Нора Амманн и Бен Голдхабер представили альтернативную концепцию — **Guaranteed Safe AI (GSI)**, предлагающую перевести безопасность ИИ из области философии и эмпирических тестов в плоскость точных инженерных спецификаций.

## 🏗️ Прощание с «черным ящиком»: Суть фреймворка GSI
[[JUMP:05:38]]

Основная идея документа *«Towards Guaranteed Safe AI»*, соавторами которого стали такие гиганты мысли, как Йошуа Бенжио, Стюарт Рассел и Макс Тегмарк, заключается в создании систем с количественно подтвержденными гарантиями безопасности [0:39]. Бен Голдхабер объясняет, что сегодня мы строим ИИ, а потом гадаем, на что он способен. GSI предлагает смену парадигмы, черпая вдохновение в гражданском строительстве.

Нора Амманн приводит историческую аналогию: в 1870-х годах около 20–25% мостов обрушивались в течение первых десяти лет эксплуатации [9:10]. Сегодня же инженерные расчеты позволяют гарантировать, что вероятность обрушения моста составляет менее одного на миллион, если соблюдены заданные нагрузки. Авторы стремятся к тому, чтобы ИИ достиг такого же уровня инженерной зрелости, позволяя делать калиброванные, математически обоснованные заявления о безопасности систем до их развертывания [9:22].

Фреймворк GSI состоит из трех фундаментальных компонентов, которые окружают основной ИИ («агента» или «планировщика»):

*   **Модель мира (World Model):** отдельный от самого ИИ блок, который количественно моделирует воздействие системы на реальность и предсказывает траектории развития событий [1:16].
*   **Спецификация безопасности (Safety Specification):** определение того, какие исходы и воздействия считаются приемлемыми [1:16].
*   **Верификатор (Verifier):** проверяет, приведут ли действия, предложенные ИИ, к результатам, соответствующим спецификации, согласно прогнозам модели мира [1:30].

## 🌍 Модель мира как фундамент доверия
[[JUMP:17:00]]

Ключевая проблема текущих методов безопасности — их эмпирический характер. Нора Амманн утверждает, что простого тестирования на примерах недостаточно, так как невозможно протестировать систему исчерпывающе [18:04]. Более того, мощные системы могут намеренно скрывать дефекты (проблема «backdoors») или выходить за рамки распределения данных, на которых их обучали [18:29].

Модель мира в системе GSI служит для того, чтобы:

1. Иметь явное представление о правдоподобных траекториях развития мира [19:20].
2. Просчитывать последствия контрфактуальных вмешательств («что будет, если я сделаю А вместо Б?») [19:32].
3. Учитывать не только байесовскую неопределенность, но и неопределенность самой модели [20:36].

По словам Амманн, идеал GSI — это **человеко-читаемая и аудируемая модель** [22:12]. Если в современных нейросетях модель мира скрыта внутри весов и непредсказуема, то в GSI она должна быть явной, чтобы эксперты могли проверить её соответствие научным теориям физики или биологии [53:39].

## 🛡️ Верификация и защита в глубину
[[JUMP:30:44]]

Верификатор в этой схеме действует как «ворота безопасности». Когда ИИ (который авторы рассматривают как черный ящик, генерирующий планы) предлагает действие, верификатор прогоняет это действие через Модель мира и сравнивает результат со Спецификацией безопасности [31:11]. Если вероятность нарушения границ безопасности превышает заданный порог, действие блокируется.

Разработчики также предлагают концепцию **инфраструктуры развертывания** [32:04]. Даже если действие верифицировано, система продолжает мониторинг в реальном времени. Если реальные наблюдения начинают отклоняться от предсказаний Модели мира, срабатывает механизм экстренного перехода на консервативную, гарантированно безопасную резервную систему (fail-safe) [32:44].

## 🚗 От беспилотников к ядерным реакторам: Практические примеры
[[JUMP:35:19]]

Для наглядности ведущий Нейтан Ленц и гости разбирают пример с автопилотом. Современные Tesla обучаются на гигантских массивах данных «вслепую» [35:50]. В рамках GSI такая машина имела бы:

*   Явную физическую модель мира с учетом импульса, трения и объектов [36:31].
*   Спецификацию, запрещающую столкновения или опасные ускорения [37:09].

Однако, как отмечает Бен Голдхабер, сложности начинаются в «серых зонах» [40:43]. Иногда для спасения жизни человека машине *нужно* пересечь двойную сплошную. Это превращает GSI не только в технический, но и в **управленческий фреймворк** (governance framework). Спецификация безопасности становится местом, где общество или демократические институты могут явно закрепить свои ценности и приоритеты [42:40].

В области медицины или биозащиты GSI может предотвращать синтез токсичных соединений. Амманн поясняет: если модель слишком не уверена в безопасности нового вещества, она должна быть консервативной и блокировать синтез, пока научные знания не расширятся [48:18].

## 🤝 Демократия против «Цифрового Короля»
[[JUMP:1:16:52]]

Одной из самых живых тем обсуждения стала аналогия Бен Голдхабера о «Цифровом Короле». Даже если ИИ-модель (например, Claude 3) кажется исключительно «добродетельной» и «этичной», Бен скептичен в отношении передачи ей всей полноты власти [1:10:59].

Основные аргументы против «этичного черного ящика»:

1.  **Отсутствие гарантий при выходе за пределы данных:** модель может быть «дружелюбной» в чате, но вести себя непредсказуемо в управлении электросетью [1:06:09].
2.  **Необходимость плюрализма:** ценности общества сложны и противоречивы. Спецификация GSI позволяет формализовать итоги демократических дебатов, а не полагаться на «характер», заложенный разработчиками в одну конкретную модель [1:11:11].
3.  **Снижение рисков гонки:** четкие стандарты безопасности позволяют перейти от дилеммы заключенного (гонки на выживание) к международному сотрудничеству, подобно тому, как разные страны сотрудничают на МКС [1:22:09].

## 🛠️ Влияние на индустрию и регулирование
[[JUMP:1:38:03]]

GSI предлагает путь к «умному» регулированию ИИ. Вместо того чтобы пытаться контролировать проприетарные алгоритмы (торговые секреты компаний), правительство может устанавливать объективные **внешние стандарты безопасности** [1:38:15]. Компании остаются свободны в инновациях внутри своих систем, пока они могут доказать с помощью верификатора, что их продукт соответствует общественным спецификациям.

Голдхабер признает, что критики часто указывают на плохую масштабируемость подхода [1:25:28]. Создание детальных моделей мира — колоссальный труд. Однако он оптимистичен: чем мощнее становится ИИ, тем лучше он может помогать нам в создании этих самых формальных моделей и верификации кода, делая процесс более быстрым и дешевым со временем (амортизация затрат) [1:26:08].

Бен и Нора резюмируют, что их цель — не заменить текущие методы оценки (evals), а дополнить их «стратегией защиты в глубину» [1:14:28]. В мире, где ИИ может достичь уровня AGI уже к 2027 году, наличие математически обоснованных «тормозов» становится не просто академическим интересом, а вопросом выживания цивилизации.