В эпоху стремительного развития больших языковых моделей мир столкнулся с парадоксом: мы создаем системы с невероятными возможностями, но не имеем надежных инструментов для предсказания их поведения в критических ситуациях. Современный подход к безопасности ИИ во многом напоминает «черный ящик»: модель обучается, а затем тестируется на наличие ошибок, которые разработчики пытаются исправить постфактум. В недавнем выпуске подкаста The Cognitive Revolution эксперты Нора Амманн и Бен Голдхабер представили альтернативную концепцию — Guaranteed Safe AI (GSI), предлагающую перевести безопасность ИИ из области философии и эмпирических тестов в плоскость точных инженерных спецификаций.
🏗️ Прощание с «черным ящиком»: Суть фреймворка GSI 5:38
Основная идея документа «Towards Guaranteed Safe AI», соавторами которого стали такие гиганты мысли, как Йошуа Бенжио, Стюарт Рассел и Макс Тегмарк, заключается в создании систем с количественно подтвержденными гарантиями безопасности . Бен Голдхабер объясняет, что сегодня мы строим ИИ, а потом гадаем, на что он способен. GSI предлагает смену парадигмы, черпая вдохновение в гражданском строительстве.
Нора Амманн приводит историческую аналогию: в 1870-х годах около 20–25% мостов обрушивались в течение первых десяти лет эксплуатации . Сегодня же инженерные расчеты позволяют гарантировать, что вероятность обрушения моста составляет менее одного на миллион, если соблюдены заданные нагрузки. Авторы стремятся к тому, чтобы ИИ достиг такого же уровня инженерной зрелости, позволяя делать калиброванные, математически обоснованные заявления о безопасности систем до их развертывания .
Фреймворк GSI состоит из трех фундаментальных компонентов, которые окружают основной ИИ («агента» или «планировщика»):
- Модель мира (World Model): отдельный от самого ИИ блок, который количественно моделирует воздействие системы на реальность и предсказывает траектории развития событий .
- Спецификация безопасности (Safety Specification): определение того, какие исходы и воздействия считаются приемлемыми .
- Верификатор (Verifier): проверяет, приведут ли действия, предложенные ИИ, к результатам, соответствующим спецификации, согласно прогнозам модели мира .
🌍 Модель мира как фундамент доверия 17:00
Ключевая проблема текущих методов безопасности — их эмпирический характер. Нора Амманн утверждает, что простого тестирования на примерах недостаточно, так как невозможно протестировать систему исчерпывающе . Более того, мощные системы могут намеренно скрывать дефекты (проблема «backdoors») или выходить за рамки распределения данных, на которых их обучали .
Модель мира в системе GSI служит для того, чтобы:
- Иметь явное представление о правдоподобных траекториях развития мира .
- Просчитывать последствия контрфактуальных вмешательств («что будет, если я сделаю А вместо Б?») .
- Учитывать не только байесовскую неопределенность, но и неопределенность самой модели .
По словам Амманн, идеал GSI — это человеко-читаемая и аудируемая модель . Если в современных нейросетях модель мира скрыта внутри весов и непредсказуема, то в GSI она должна быть явной, чтобы эксперты могли проверить её соответствие научным теориям физики или биологии .
🛡️ Верификация и защита в глубину 30:44
Верификатор в этой схеме действует как «ворота безопасности». Когда ИИ (который авторы рассматривают как черный ящик, генерирующий планы) предлагает действие, верификатор прогоняет это действие через Модель мира и сравнивает результат со Спецификацией безопасности . Если вероятность нарушения границ безопасности превышает заданный порог, действие блокируется.
Разработчики также предлагают концепцию инфраструктуры развертывания . Даже если действие верифицировано, система продолжает мониторинг в реальном времени. Если реальные наблюдения начинают отклоняться от предсказаний Модели мира, срабатывает механизм экстренного перехода на консервативную, гарантированно безопасную резервную систему (fail-safe) .
🚗 От беспилотников к ядерным реакторам: Практические примеры 35:19
Для наглядности ведущий Нейтан Ленц и гости разбирают пример с автопилотом. Современные Tesla обучаются на гигантских массивах данных «вслепую» . В рамках GSI такая машина имела бы:
- Явную физическую модель мира с учетом импульса, трения и объектов .
- Спецификацию, запрещающую столкновения или опасные ускорения .
Однако, как отмечает Бен Голдхабер, сложности начинаются в «серых зонах» . Иногда для спасения жизни человека машине нужно пересечь двойную сплошную. Это превращает GSI не только в технический, но и в управленческий фреймворк (governance framework). Спецификация безопасности становится местом, где общество или демократические институты могут явно закрепить свои ценности и приоритеты .
В области медицины или биозащиты GSI может предотвращать синтез токсичных соединений. Амманн поясняет: если модель слишком не уверена в безопасности нового вещества, она должна быть консервативной и блокировать синтез, пока научные знания не расширятся .
🤝 Демократия против «Цифрового Короля» 1:16:52
Одной из самых живых тем обсуждения стала аналогия Бен Голдхабера о «Цифровом Короле». Даже если ИИ-модель (например, Claude 3) кажется исключительно «добродетельной» и «этичной», Бен скептичен в отношении передачи ей всей полноты власти .
Основные аргументы против «этичного черного ящика»:
- Отсутствие гарантий при выходе за пределы данных: модель может быть «дружелюбной» в чате, но вести себя непредсказуемо в управлении электросетью .
- Необходимость плюрализма: ценности общества сложны и противоречивы. Спецификация GSI позволяет формализовать итоги демократических дебатов, а не полагаться на «характер», заложенный разработчиками в одну конкретную модель .
- Снижение рисков гонки: четкие стандарты безопасности позволяют перейти от дилеммы заключенного (гонки на выживание) к международному сотрудничеству, подобно тому, как разные страны сотрудничают на МКС .
🛠️ Влияние на индустрию и регулирование 1:38:03
GSI предлагает путь к «умному» регулированию ИИ. Вместо того чтобы пытаться контролировать проприетарные алгоритмы (торговые секреты компаний), правительство может устанавливать объективные внешние стандарты безопасности . Компании остаются свободны в инновациях внутри своих систем, пока они могут доказать с помощью верификатора, что их продукт соответствует общественным спецификациям.
Голдхабер признает, что критики часто указывают на плохую масштабируемость подхода . Создание детальных моделей мира — колоссальный труд. Однако он оптимистичен: чем мощнее становится ИИ, тем лучше он может помогать нам в создании этих самых формальных моделей и верификации кода, делая процесс более быстрым и дешевым со временем (амортизация затрат) .
Бен и Нора резюмируют, что их цель — не заменить текущие методы оценки (evals), а дополнить их «стратегией защиты в глубину» . В мире, где ИИ может достичь уровня AGI уже к 2027 году, наличие математически обоснованных «тормозов» становится не просто академическим интересом, а вопросом выживания цивилизации.