GSI: как математически доказать, что искусственный интеллект не будет представлять угрозы

В эпоху стремительного развития больших языковых моделей мир столкнулся с парадоксом: мы создаем системы с невероятными возможностями, но не имеем надежных инструментов для предсказания их поведения в критических ситуациях. Современный подход к безопасности ИИ во многом напоминает «черный ящик»: модель обучается, а затем тестируется на наличие ошибок, которые разработчики пытаются исправить постфактум. В недавнем выпуске подкаста The Cognitive Revolution эксперты Нора Амманн и Бен Голдхабер представили альтернативную концепцию — Guaranteed Safe AI (GSI), предлагающую перевести безопасность ИИ из области философии и эмпирических тестов в плоскость точных инженерных спецификаций.

🏗️ Прощание с «черным ящиком»: Суть фреймворка GSI 5:38

Основная идея документа «Towards Guaranteed Safe AI», соавторами которого стали такие гиганты мысли, как Йошуа Бенжио, Стюарт Рассел и Макс Тегмарк, заключается в создании систем с количественно подтвержденными гарантиями безопасности . Бен Голдхабер объясняет, что сегодня мы строим ИИ, а потом гадаем, на что он способен. GSI предлагает смену парадигмы, черпая вдохновение в гражданском строительстве.

Нора Амманн приводит историческую аналогию: в 1870-х годах около 20–25% мостов обрушивались в течение первых десяти лет эксплуатации . Сегодня же инженерные расчеты позволяют гарантировать, что вероятность обрушения моста составляет менее одного на миллион, если соблюдены заданные нагрузки. Авторы стремятся к тому, чтобы ИИ достиг такого же уровня инженерной зрелости, позволяя делать калиброванные, математически обоснованные заявления о безопасности систем до их развертывания .

Фреймворк GSI состоит из трех фундаментальных компонентов, которые окружают основной ИИ («агента» или «планировщика»):

Модель мира (World Model): отдельный от самого ИИ блок, который количественно моделирует воздействие системы на реальность и предсказывает траектории развития событий .
Спецификация безопасности (Safety Specification): определение того, какие исходы и воздействия считаются приемлемыми .
Верификатор (Verifier): проверяет, приведут ли действия, предложенные ИИ, к результатам, соответствующим спецификации, согласно прогнозам модели мира .

🌍 Модель мира как фундамент доверия 17:00

Ключевая проблема текущих методов безопасности — их эмпирический характер. Нора Амманн утверждает, что простого тестирования на примерах недостаточно, так как невозможно протестировать систему исчерпывающе . Более того, мощные системы могут намеренно скрывать дефекты (проблема «backdoors») или выходить за рамки распределения данных, на которых их обучали .

Модель мира в системе GSI служит для того, чтобы:

Иметь явное представление о правдоподобных траекториях развития мира .
Просчитывать последствия контрфактуальных вмешательств («что будет, если я сделаю А вместо Б?») .
Учитывать не только байесовскую неопределенность, но и неопределенность самой модели .

По словам Амманн, идеал GSI — это человеко-читаемая и аудируемая модель . Если в современных нейросетях модель мира скрыта внутри весов и непредсказуема, то в GSI она должна быть явной, чтобы эксперты могли проверить её соответствие научным теориям физики или биологии .

🛡️ Верификация и защита в глубину 30:44

Верификатор в этой схеме действует как «ворота безопасности». Когда ИИ (который авторы рассматривают как черный ящик, генерирующий планы) предлагает действие, верификатор прогоняет это действие через Модель мира и сравнивает результат со Спецификацией безопасности . Если вероятность нарушения границ безопасности превышает заданный порог, действие блокируется.

Разработчики также предлагают концепцию инфраструктуры развертывания . Даже если действие верифицировано, система продолжает мониторинг в реальном времени. Если реальные наблюдения начинают отклоняться от предсказаний Модели мира, срабатывает механизм экстренного перехода на консервативную, гарантированно безопасную резервную систему (fail-safe) .

🚗 От беспилотников к ядерным реакторам: Практические примеры 35:19

Для наглядности ведущий Нейтан Ленц и гости разбирают пример с автопилотом. Современные Tesla обучаются на гигантских массивах данных «вслепую» . В рамках GSI такая машина имела бы:

Явную физическую модель мира с учетом импульса, трения и объектов .
Спецификацию, запрещающую столкновения или опасные ускорения .

Однако, как отмечает Бен Голдхабер, сложности начинаются в «серых зонах» . Иногда для спасения жизни человека машине нужно пересечь двойную сплошную. Это превращает GSI не только в технический, но и в управленческий фреймворк (governance framework). Спецификация безопасности становится местом, где общество или демократические институты могут явно закрепить свои ценности и приоритеты .

В области медицины или биозащиты GSI может предотвращать синтез токсичных соединений. Амманн поясняет: если модель слишком не уверена в безопасности нового вещества, она должна быть консервативной и блокировать синтез, пока научные знания не расширятся .

🤝 Демократия против «Цифрового Короля» 1:16:52

Одной из самых живых тем обсуждения стала аналогия Бен Голдхабера о «Цифровом Короле». Даже если ИИ-модель (например, Claude 3) кажется исключительно «добродетельной» и «этичной», Бен скептичен в отношении передачи ей всей полноты власти .

Основные аргументы против «этичного черного ящика»:

Отсутствие гарантий при выходе за пределы данных: модель может быть «дружелюбной» в чате, но вести себя непредсказуемо в управлении электросетью .
Необходимость плюрализма: ценности общества сложны и противоречивы. Спецификация GSI позволяет формализовать итоги демократических дебатов, а не полагаться на «характер», заложенный разработчиками в одну конкретную модель .
Снижение рисков гонки: четкие стандарты безопасности позволяют перейти от дилеммы заключенного (гонки на выживание) к международному сотрудничеству, подобно тому, как разные страны сотрудничают на МКС .

🛠️ Влияние на индустрию и регулирование 1:38:03

GSI предлагает путь к «умному» регулированию ИИ. Вместо того чтобы пытаться контролировать проприетарные алгоритмы (торговые секреты компаний), правительство может устанавливать объективные внешние стандарты безопасности . Компании остаются свободны в инновациях внутри своих систем, пока они могут доказать с помощью верификатора, что их продукт соответствует общественным спецификациям.

Голдхабер признает, что критики часто указывают на плохую масштабируемость подхода . Создание детальных моделей мира — колоссальный труд. Однако он оптимистичен: чем мощнее становится ИИ, тем лучше он может помогать нам в создании этих самых формальных моделей и верификации кода, делая процесс более быстрым и дешевым со временем (амортизация затрат) .

Бен и Нора резюмируют, что их цель — не заменить текущие методы оценки (evals), а дополнить их «стратегией защиты в глубину» . В мире, где ИИ может достичь уровня AGI уже к 2027 году, наличие математически обоснованных «тормозов» становится не просто академическим интересом, а вопросом выживания цивилизации.