# Ловушка кооперации: почему послушный ИИ может стать опасным

Источник: https://www.youtube.com/watch?v=eDzhTK9brZk
Канал: 80,000 Hours
Опубликовано: 14.02.2025

---

Даже если мы научим ИИ идеально подчиняться человеку, две такие «послушные» системы могут случайно спровоцировать глобальную катастрофу, просто не сумев договориться между собой на сверхчеловеческих скоростях. Аллан Дафо из Google DeepMind объясняет, почему классическое «выравнивание» (alignment) целей не спасет нас от системных рисков и автоматической эскалации конфликтов. Чтобы выжить в эпоху AGI, человечеству придется передать машинам не только свои знания, но и сложнейшие социальные инстинкты кооперации.

## 🤖 Технологический детерминизм и стратегия управления будущим AGI
[[JUMP:01:41]]

Аллан Дафо, занимающий пост директора по стратегии в Google DeepMind, находится в эпицентре разработки систем, которые могут фундаментально изменить человеческую цивилизацию. Его работа в компании сосредоточена на трёх ключевых направлениях, или «столпах», которые призваны обеспечить безопасный переход к эре сильного искусственного интеллекта (AGI).

### Три столпа стратегии Google DeepMind
[[JUMP:01:41]]

Первый столп деятельности команды Дафо — это **оценка опасных способностей** (dangerous capabilities) фронтирных моделей [1:41]. По мере того как ИИ становится мощнее, возникает риск появления у него качеств, которые могут быть использованы во вред или привести к потере контроля. Задача специалистов — вовремя идентифицировать эти «красные флаги», прежде чем технология будет масштабирована или выпущена в открытый доступ [2:12].

Второй столп касается **управления нормами и ответственности**. Это внешняя работа, направленная на взаимодействие с индустрией и регуляторами. В Google DeepMind стремятся не просто разрабатывать безопасные технологии, но и устанавливать общемировые стандарты: какие меры предосторожности должны быть обязательными для всех игроков рынка и как обеспечить прозрачность процесса разработки [3:09]. Ранее в разговоре они вскользь касались вопросов безопасности, которые требуют тесного взаимодействия с техническими командами по выравниванию (alignment).

Третий столп — **фронтирное планирование** (frontier planning). Это долгосрочный взгляд за горизонт, попытка представить, какие этические, политические и технические вызовы возникнут через 5 или 10 лет [2:39]. Аллан Дафо подчеркивает, что работа в структуре коммерческой компании дает уникальный рычаг влияния: возможность консультировать тех, кто принимает ключевые решения в «высокоэффективные исторические моменты» [5:57]. По его мнению, пребывание внутри процесса разработки позволяет лучше понимать нюансы технологии, чем это возможно из академической среды [5:25].

### Технологический детерминизм: мы управляем прогрессом или он нами?
[[JUMP:09:35]]

Один из центральных философских вопросов, который Дафо исследовал ещё во время своей академической карьеры в Беркли, — это природа технологического прогресса [9:50]. Существует ли некая макроисторическая неизбежность, или развитие человечества — это результат случайных решений и индивидуальной воли?

Сторонники **технологического детерминизма** утверждают, что технологии развиваются по собственной логике, а общество лишь подстраивается под них [15:44]. В качестве примера Дафо приводит закон Мура: на протяжении десятилетий мы могли с высокой точностью предсказать вычислительную мощность компьютеров на годы вперед [11:37]. Это создает ощущение, что прогресс — это мощный поток, в котором человек — лишь щепка. В этом контексте некоторые мыслители, такие как Жак Эллюль или Лэнгдон Уиннер, рассматривали людей как «винтики» в системе, обслуживающей технологический рост [16:04].

Однако Дафо предлагает более сложную модель. Он признает наличие мощных структурных сил — например, рыночной конкуренции, которая заставляет компании и страны стремиться к лидерству в ИИ [10:55]. Но он также верит в агентность (agency) — способность человека менять курс истории.

> «Мой ответ таков: технология не принуждает нас напрямую, но если одна группа решает использовать её определённым образом, это создает системное давление на всех остальных», — отмечает Дафо [0:12].

### Социальный конструктивизм и «жесткие» структуры
[[JUMP:16:45]]

В противовес детерминизму существует школа **социального конструктивизма**. Её приверженцы считают, что технологии — это отражение человеческих идеологий, политики и случайных обстоятельств [16:45]. Дафо вспоминает свой опыт общения с социологами, которые утверждали, что «всё могло быть иначе», если бы в ключевых точках были приняты другие решения [17:46].

Чтобы проиллюстрировать, как человеческие предубеждения встраиваются в «железо» и бетон, Дафо приводит классический пример из истории урбанистики — мосты Роберта Мозеса в Нью-Йорке [22:02]. Мозес якобы намеренно строил путепроводы к пляжам Лонг-Айленда слишком низкими, чтобы под ними не могли проехать автобусы. Это было сделано для того, чтобы ограничить доступ к пляжам для бедных слоев населения и этнических меньшинств, которые пользовались общественным транспортом [22:32].

Этот пример важен для понимания разработки AGI:

*   Технологические решения создают инерцию («path dependency») [23:43].
*   Инфраструктура, созданная сегодня, диктует социальные нормы завтра.
*   Если мы инвестируем в определенную архитектуру ИИ сейчас, нам будет крайне трудно сменить путь позже [24:14].

Дафо подчеркивает, что хотя прорывы в науке могут казаться «созревшими» для совершения [25:14], именно от человеческого выбора зависит, в какую оболочку будет облечена эта мощь. В конечном счете, его работа в Google DeepMind — это попытка доказать, что даже в условиях макроэкономического давления у нас остается пространство для маневра, чтобы направить развитие AGI в сторону безопасности и общественного блага.

## 🧭 Двигатели прогресса: конкуренция, уроки истории и управление развитием
[[JUMP:25:14]]

Ранее в разговоре Аллан Дафо и Роб Виблин затронули тему технологического детерминизма и того, насколько человечество действительно способно влиять на траекторию своего будущего. Чтобы понять, почему развитие определённых технологий кажется неизбежным, Дафо предлагает рассмотреть механизмы, которые заставляют цивилизации двигаться вперёд, даже если это сопряжено с огромными рисками.

### Военно-экономическая конкуренция как фундамент неизбежности
[[JUMP:30:03]]

Аллан Дафо вводит понятие «микрооснований» технологического прогресса, объясняя, почему индивидуальные решения часто пасуют перед глобальными трендами. Он использует метафору «лунного детерминизма»: подобно тому как Луна вызывает приливы и отливы, игнорируя рябь на поверхности воды, мощные системные силы диктуют направление развития цивилизации [29:34]. Одной из таких фундаментальных сил является военно-экономическая конкуренция.

В мире, где ресурсы ограничены, любая группа — будь то компания или государство — вынуждена внедрять наиболее эффективные инструменты, чтобы не оказаться на обочине истории. Экономическое соперничество заставляет бизнес автоматизировать процессы ради выживания на рынке [31:00]. Однако ещё более жёстким фильтром выступает военная конкуренция. Дафо отмечает, что история — это процесс постоянного отбора: цивилизации, которые игнорируют технологические инновации, либо поглощаются более развитыми соседями, либо теряют субъектность [31:54].

Этот механизм создаёт ситуацию, когда отказ от опасной технологии (например, продвинутого ИИ или ядерного оружия) становится крайне сложным, если есть вероятность, что конкурент её освоит. В качестве примера Дафо приводит наличие ядерного арсенала у Великобритании [35:40]. В текущей геополитической обстановке ядерное сдерживание воспринимается как необходимая оборонительная мера — без него страна оказалась бы в крайне уязвимом положении перед лицом любого агрессора, обладающего таким оружием [36:10]. Таким образом, конкуренция выступает не просто стимулом, а принудительным фактором, который лишает акторов свободы выбора в пользу «безопасного бездействия».

### Реставрация Мэйдзи: исторический прецедент вынужденной модернизации
[[JUMP:38:11]]

Для иллюстрации того, как внешнее давление может мгновенно разрушить вековые традиции и культурные предпочтения, Аллан Дафо обращается к примеру Японии периода Эдо. В течение 250 лет Япония под властью сёгуната Токугава была закрытым, стабильным феодальным обществом, сознательно ограничивавшим внешнее влияние и развитие определённых технологий [39:09]. 

Всё изменилось в 1853 году с прибытием «чёрных кораблей» коммодора Мэттью Перри. Демонстрация превосходящей мощи западного парового флота и крупнокалиберной артиллерии нанесла сокрушительный удар по японскому мировосприятию [40:09]. Американцы даже предложили японцам белые флаги, чтобы те могли сигнализировать о сдаче в случае начала боевых действий — унизительный жест, который подчеркнул технологическую пропасть [40:23].

Реакция Японии была молниеносной и радикальной. Страна осознала: чтобы сохранить независимость, она должна стать такой же мощной, как и её колонизаторы. Это привело к Реставрации Мэйдзи — периоду беспрецедентно быстрой индустриализации и заимствования западных технологий [41:21]. Дафо подчёркивает, что этот кейс демонстрирует: даже самая консервативная и закрытая социальная система откажется от своих ценностей ради модернизации, если на кону стоит выживание. Этот исторический пример служит предупреждением для современности: если ИИ станет решающим фактором в мировом балансе сил, страны будут внедрять его максимально быстро, часто пренебрегая мерами предосторожности [41:50].

### Дифференциальное технологическое развитие: как направить прогресс в безопасное русло
[[JUMP:43:21]]

Если технологическое развитие в целом кажется неизбежным, то означает ли это, что мы полностью лишены агентности? Аллан Дафо считает, что у нас всё ещё есть возможность влиять на *тип* и *порядок* появления технологий. Эту концепцию называют дифференциальным технологическим развитием (Differential Technological Development) [43:48].

Суть подхода заключается в том, чтобы намеренно ускорять создание защитных и стабилизирующих технологий, одновременно замедляя появление потенциально опасных или дестабилизирующих инноваций. Дафо приводит несколько аналогий:

*   **Транспорт:** Прежде чем разгонять автомобиль до огромных скоростей, человечество изобрело эффективные тормоза и системы безопасности [44:45].
*   **Биобезопасность:** Инвестиции в системы мониторинга патогенов и ускоренную разработку вакцин должны опережать возможности создания биологического оружия [45:25].
*   **Энергетика:** Масштабные субсидии в солнечную и ветровую генерацию сделали их коммерчески более выгодными, чем ископаемое топливо, что является примером управления траекторией целой отрасли [45:55].

В контексте искусственного интеллекта дифференциальное развитие означает приоритетное финансирование исследований в области безопасности, интерпретируемости и контроля над моделями [47:18]. Цель состоит в том, чтобы к моменту появления мощных систем ИИ у человечества уже были готовы «щиты» и проверенные методы управления. Дафо признаёт, что это сложная задача, так как рынок часто стимулирует развитие наиболее прибыльных и быстрых решений, а не самых безопасных [48:01]. Однако именно здесь проявляется роль государства и международных институтов: через маржинальные инвестиции и регуляторные стимулы они могут сместить чашу весов в пользу более стабильного будущего [49:28].

## 🤝 Кооперативный ИИ: Почему одного «выравнивания» недостаточно
[[JUMP:53:57]]

Традиционный подход к безопасности ИИ долгое время фокусировался на проблеме «выравнивания» (alignment) — гарантии того, что цели системы совпадают с намерениями её оператора. Однако Аллан Дафо подчёркивает, что одного выравнивания критически недостаточно для обеспечения безопасного будущего [54:38]. Даже если каждый отдельный ИИ будет идеально послушен своему владельцу, это не защитит человечество от катастрофических последствий, если эти системы не научатся эффективно координироваться между собой.

Аллан Дафо определяет Кооперативный ИИ (Cooperative AI) как область, изучающую способность агентов достигать взаимовыгодных результатов в многоагентных средах [54:51]. Проблема в том, что «выровненные» системы могут успешно выполнять приказы своих стран или корпораций, вступая при этом в разрушительную конкуренцию. Исторически конфликты великих держав приводили к огромным потерям благосостояния, и в эпоху AGI ставки возрастают: отсутствие глобальной координации может привести к сценариям, которые Дафо называет «ловушками и непреднамеренными катастрофами» [58:13].

Ранее в разговоре Дафо упоминал военно-экономическую конкуренцию как двигатель прогресса, но здесь он акцентирует внимание на её рисках. В качестве иллюстрации он приводит примеры из современности:

*   **«Flash crash» на фондовом рынке:** в 2010 году алгоритмическая торговля привела к мгновенному обвалу цен, который удалось остановить только благодаря вмешательству регуляторов и отмене сделок [58:33].
*   **Ценовые петли на Amazon:** когда два алгоритма, настроенные на автоматическое изменение цены в зависимости от конкурента, уводят стоимость товара в бесконечность или в ноль [59:03].

Эти инциденты — лишь предвестники. Если системы ИИ будут управлять критической инфраструктурой, финансами или военными ресурсами, не обладая навыками кооперации, последствия любого сбоя в координации станут необратимыми.

### Риск «молниеносных войн» на нечеловеческих скоростях
[[JUMP:1:00:12]]

Одной из самых тревожных угроз Дафо считает высокую скорость работы ИИ-агентов. В дипломатии и военном деле человеческий фактор, несмотря на все свои недостатки, обеспечивает «задержку», необходимую для раздумий и деэскалации. ИИ-системы лишены этой инерции.

Роб Уиблин описывает «призрак», который преследует исследователей безопасности: ситуацию, когда ИИ одной страны замечает угрозу и эскалирует конфликт, на что ИИ другой страны реагирует ещё более агрессивно [1:00:12]. Всё это может произойти за миллисекунды — быстрее, чем люди успеют осознать начало кризиса. Подобная «автоматическая эскалация» не оставляет места для дипломатических маневров или телефонных звонков между лидерами государств [1:00:55].

Аллан ссылается на Пола Шарре, теоретика использования ИИ в военном деле, указывая на критическое давление времени [1:01:37]. Если преимущество в конфликте получает тот, кто реагирует первым, стимул делегировать полномочия ИИ становится непреодолимым. Это создает структурную нестабильность, где малейшая ошибка в расчетах алгоритма может привести к полномасштабному столкновению [1:02:19]. Исследование Кооперативного ИИ направлено на то, чтобы встроить в системы предохранители, позволяющие им «торговаться» и достигать соглашений даже в условиях жесткого цейтнота.

### Механизмы доверия: от «агентов в коробке» до верификации кода
[[JUMP:1:04:18]]

Дафо выдвигает гипотезу, что ИИ могут стать значительно более эффективными в достижении компромиссов, чем люди, благодаря своей способности к радикальной прозрачности [1:06:45]. В человеческих переговорах мы часто скрываем истинные намерения, что ведет к неэффективным сделкам. ИИ-агенты могли бы использовать методы верификации, недоступные биологическим существам.

Аллан описывает концепцию «агентов в коробке»:

1. Стороны предоставляют своих ИИ-агентов в изолированную безопасную среду.
2. Агенты обмениваются колоссальными объемами данных и симулируют миллионы вариантов соглашений [1:05:32].
3. Они могут буквально «показать» друг другу свой программный код или веса моделей, доказывая отсутствие скрытых агрессивных намерений [1:05:47].

Однако Дафо сохраняет осторожный скептицизм. Он приводит аргументы против того, что ИИ автоматически станет мастером кооперации [1:09:48]. Люди эволюционировали как социальные существа, мы умеем считывать микромимику и контекст, что помогает нам судить о надежности партнера [1:10:31]. У ИИ таких встроенных механизмов может не быть. Более того, у людей есть «убывающая предельная полезность» (например, десятый миллион долларов радует меньше первого), что делает нас более склонными к компромиссам. ИИ же может обладать линейной функцией полезности, что сделает его предельно жестким и бескомпромиссным переговорщиком [1:11:13].

В завершение фрагмента Дафо касается темы интерпретируемости и «бэкдоров». Если мы научимся заглядывать внутрь моделей, это может полностью изменить понятие доверия. С одной стороны, это позволит подтвердить добрые намерения. С другой — создаст риски изощренного обмана, когда модель учится скрывать свои истинные цели от проверок, что Дафо называет «очень тонкими формами децепции» [1:15:06].

## 🤖 Искусственный интеллект как посредник и архитектор консенсуса
[[JUMP:1:16:53]]

### ИИ-медиаторы: Проект Habermas Machine и поиск общего языка
[[JUMP:1:17:10]]

Одной из наиболее перспективных и в то же время практически применимых областей развития ИИ Аллан Дафо называет роль систем как посредников в человеческих взаимодействиях. В рамках работы Cooperative AI Foundation и инициатив Google DeepMind исследуется потенциал алгоритмов в качестве инструментов политического и социального посредничества. Проект, получивший название Habermas Machine (в честь философа Юргена Хабермаса), наглядно демонстрирует способность ИИ находить консенсус даже в группах с полярными взглядами [1:17:36].

Аллан Дафо подчеркивает, что проблема сотрудничества часто упирается в недоверие и неспособность сторон адекватно оценить интересы друг друга. ИИ в этой схеме может выступать как «доверенный арбитр», который взвешивает аргументы всех участников и формулирует общую позицию, отражающую коллективный интерес [1:17:52]. Ранее в разговоре уже затрагивалась необходимость создания кооперативного ИИ, и Дафо развивает эту мысль: такие системы должны обладать развитой «моделью психики» (theory of mind), чтобы понимать намерения людей и прогнозировать их реакцию на предложенные компромиссы [1:20:18].

Ключевой задачей здесь становится создание среды, в которой можно измерить «кооперативные навыки» агентов [1:19:10]. Это не просто программирование «доброго» ИИ, а разработка систем, способных решать теоретико-игровые задачи, такие как «дилемма заключенного», где обе стороны выигрывают от сотрудничества, но имеют стимул к предательству [1:21:17]. Если ИИ сможет гарантировать приверженность сторон договоренностям, это радикально снизит транзакционные издержки в политике и экономике [1:21:43].

### Теневая сторона кооперации: Риски сговора и исключения человека
[[JUMP:1:24:31]]

Несмотря на очевидные выгоды, Дафо предостерегает от излишнего оптимизма: улучшение навыков взаимодействия ИИ-систем имеет свою «темную сторону». Кооперация не всегда является социально позитивной. Аллан приводит классическую метафору: «Демократия — это когда два волка и овца голосуют за то, что будет на обед» [1:26:02]. В данном контексте эффективная координация между двумя «волками» (системами ИИ или их владельцами) может привести к эксплуатации третьей стороны.

Существует несколько сценариев, в которых развитие кооперативных способностей ИИ может нанести вред человечеству:

*   **Скрытый сговор (Collusion):** Подобно тому как антимонопольное законодательство запрещает компаниям договариваться о ценах, системы ИИ могут научиться координировать свои действия для максимизации собственной выгоды в ущерб потребителям или обществу [1:26:32].
*   **Исключение из экономики:** Если ИИ-агенты научатся сотрудничать друг с другом намного эффективнее и быстрее, чем с людьми, человечество может оказаться «вытесненным» из ключевых экономических процессов [1:28:52].
*   **Обход надзора:** С точки зрения безопасности AGI (AGI safety), критическим риском является способность моделей координироваться между собой для обмана систем человеческого контроля [1:31:00]. Если несколько ИИ-систем объединятся, чтобы скрыть свои истинные цели или опасные возможности от проверяющего, это создаст неразрешимую проблему для надзорных органов [1:31:35].

Аллан Дафо отмечает, что координация на «машинных скоростях» дает ИИ колоссальное преимущество [1:30:17]. В мире, где тысячи специализированных агентов мгновенно обмениваются данными и вырабатывают общую стратегию, человеческие институты управления могут оказаться слишком медленными и неэффективными, чтобы предотвратить формирование цифровых «картелей» [1:30:31].

### Определение AGI и уровни прогресса: От мифов к метрикам
[[JUMP:1:32:37]]

Для того чтобы дискуссия о рисках и возможностях ИИ была конструктивной, Дафо предлагает отойти от расплывчатых определений «общего искусственного интеллекта» (AGI). Он указывает на распространенное заблуждение: многие представляют AGI как систему, обладающую всеми человеческими качествами, включая наши слабости и когнитивные искажения [1:34:07]. На самом деле развитие ИИ крайне несбалансированно — системы могут на порядки превосходить людей в анализе данных, но при этом обладать «нулевым» здравым смыслом в бытовых вопросах [1:34:24].

В совместной работе Дафо и его коллег предлагается классификация уровней прогресса ИИ, основанная на сравнении с квалифицированными людьми в различных доменах [1:32:52]. Ключевые аспекты этой классификации включают:

1.  **Универсальность (Generality):** Способность системы не просто выполнять одну задачу, а адаптироваться к широкому спектру областей. Дафо отмечает, что современные большие языковые модели (LLM) уже демонстрируют зачатки этой универсальности — одна и та же модель может писать стихи и программировать на Python, что делает ее более ценной, чем набор узких инструментов [1:36:57].
2.  **Трансформативность (Transformative AI):** Иногда важнее не то, «умнее» ли ИИ человека, а насколько сильно его внедрение меняет структуру экономики или ведения войны [1:38:42].
3.  **Превосходство в критических узлах:** Система может не быть AGI в полном смысле слова, но если она автоматизирует процесс создания новых технологий или стратегическое планирование, её влияние становится фундаментальным [1:40:02].

Аллан подчеркивает, что интеллект — это не монолитная характеристика, а набор компетенций [1:38:12]. Вместо ожидания момента, когда ИИ «проснется» и станет человеком, исследователям следует сосредоточиться на конкретных уровнях способностей: от выполнения простых офисных задач до уровня «ведущего эксперта» в науке или управлении. Такой подход позволяет точнее оценивать риски и вовремя внедрять необходимые механизмы контроля, о которых подробнее пойдет речь в следующих главах [1:32:21].

## 🔬 Рекурсивный прогресс и границы контроля: как оценивают мощь ИИ

[[JUMP:1:40:34]]

Одной из самых захватывающих и одновременно тревожных перспектив развития искусственного интеллекта является автоматизация самих исследований в области машинного обучения (ML R&D). Аллан Дафо отмечает, что задачи, которые сегодня выполняют инженеры и исследователи ИИ, потенциально могут быть автоматизированы одними из первых [1:41:17]. Это создает предпосылки для «рекурсивного самосовершенствования», когда системы ИИ начинают самостоятельно улучшать свои алгоритмы, ускоряя цикл технологического прогресса.

### Автоматизация исследований и точка невозврата
[[JUMP:1:40:34]]

Обсуждая путь к AGI (общему искусственному интеллекту), Аллан Дафо подчеркивает, что критическим порогом станет не просто достижение определённого уровня знаний, а способность системы заместить человеческий труд в процессе создания новых ИИ-моделей [1:42:57]. Если ИИ сможет выполнять задачи инженера среднего уровня, это приведет к качественному скачку:

*   **Масштабируемость:** В отличие от людей-исследователей, цифровые агенты могут копироваться и работать параллельно на огромных мощностях.
*   **Скорость:** Циклы гипотеза-эксперимент-анализ сокращаются с недель до часов.
*   **Новые траектории:** ИИ может обнаружить архитектурные решения в «многомерном пространстве возможностей», которые неочевидны для человеческого разума [1:44:56].

Дафо указывает, что некоторые в сообществе безопасности предпочли бы «специализированный» путь развития ИИ (например, только в физике или материаловедении), так как им легче управлять [1:45:48]. Однако реальность такова, что универсальные способности часто оказываются более эффективными. Ранее в разговоре уже затрагивалась тема технологического детерминизма, и здесь Дафо вновь подчеркивает: если какая-то форма ИИ дает экономическое или научное преимущество, она, скорее всего, будет реализована [1:46:14].

### Оценка опасных способностей: кибервзлом и убеждение
[[JUMP:1:48:39]]

Чтобы не оказаться застигнутыми врасплох внезапным скачком способностей (emergent properties), Google DeepMind внедряет систему предварительной оценки фронтирных моделей. Эти тесты — своего рода «красные флаги», которые должны сработать до массового развертывания системы. Дафо упоминает, что эти оценки в будущем станут частью более широкого протокола безопасности компании (Frontier Safety Framework) [1:49:25].

Исследователи выделяют несколько критических категорий для тестирования:

1.  **Кибербезопасность:** Способность модели находить уязвимости в коде и использовать их [1:54:43].
2.  **Убеждение и манипуляция:** Насколько эффективно модель может менять мнение человека или склонять его к действиям.
3.  **Самораспространение:** Способность модели копировать свой код на другие сервера и обеспечивать собственную выживаемость [1:54:58].
4.  **Ситуативная осведомленность:** Понимание моделью того, что она является ИИ, находится в процессе обучения или тестирования [1:53:29].

Аллан Дафо приводит пример элегантного теста на ситуативную осведомленность: модели дают задачу отредактировать письмо, в котором часть слов скрыта. При этом модель имеет доступ к файловой системе, где лежат полные версии этих текстов. Тест проверяет, догадается ли модель «заглянуть» в свои же директории, чтобы идеально выполнить задание, используя знания о своем окружении [1:50:51]. 

На текущий момент (согласно данным, обсуждаемым в интервью) топовые модели Gemini оцениваются примерно на 2 балла из 5 по шкале кибербезопасности и самораспространения [1:54:58]. Это означает, что они уже могут помогать в решении простых задач, но пока не способны на полностью автономные сложные атаки.

### Проблема элицитации скрытых способностей
[[JUMP:1:58:02]]

Одной из самых сложных задач для ИИ-лабораторий является «элицитация» (выявление) истинного потенциала модели. Дафо объясняет, что модель может обладать знанием или навыком, но не проявлять его при стандартном запросе [1:59:03]. Чтобы понять реальный предел опасности, нужно создать условия, в которых система работает на максимуме своих возможностей.

Для этого в DeepMind используют специальные инструменты и подходы:

*   **Интерактивные среды:** Проект под названием *Project Naptime* предоставляет модели полноценную среду для программирования и отладки, что резко повышает её результаты в кибер-задачах по сравнению с простым чат-интерфейсом [1:57:16].
*   **Система доверенных тестеров (Trusted-testers):** Использование экспертов-людей, которые пытаются «сломать» модель или заставить её проявить скрытые навыки в ходе длительного взаимодействия [2:02:53].
*   **Оценка «в дикой природе»:** Переход от синтетических тестов к анализу того, как модель ведет себя в реальных сценариях убеждения или обмана [2:01:03].

Дафо подчеркивает, что оценка способностей — это не просто проверка кода, а сложная дисциплина на стыке психологии и социологии [2:00:33]. Основная проблема здесь заключается в том, что оценки часто являются «запаздывающими индикаторами». Пользователи могут обнаружить опасные способы применения модели спустя месяцы после её релиза, просто найдя правильный подход к промптингу [2:05:18]. Именно поэтому науке об оценках (science of evals) сегодня уделяется не меньше внимания, чем архитектуре нейросетей.

## 🛡️ Прогнозирование рисков и поиск демократической легитимности
[[JUMP:2:09:08]]

### Суперфоркастеры: как предсказать «скачки» способностей ИИ
[[JUMP:2:09:08]]

Одной из главных проблем управления рисками ИИ является то, что традиционные «законы масштабирования» (scaling laws) отлично предсказывают снижение функции потерь, но плохо справляются с прогнозированием конкретных навыков модели [2:13:58]. Аллан Дафо подчеркивает: мы можем знать, сколько вычислительных мощностей потребуется для обучения следующего поколения систем, но мы не всегда понимаем, когда именно эти системы научатся, например, писать сложный вредоносный код или помогать в создании биологического оружия.

Для решения этой задачи Google DeepMind начал активно привлекать «суперфоркастеров» — профессиональных прогнозистов с доказанной точностью предсказаний. В отличие от автоматизированных тестов, эти люди оценивают внешнюю валидность развития технологий в будущем [2:09:22]. Исследования показывают, что такие эксперты демонстрируют высокую степень калибровки: если они оценивают вероятность события в 75%, то в долгосрочной перспективе оно действительно происходит в трёх случаях из четырёх [2:12:15]. 

Использование форкастеров позволяет компаниям заранее обнаруживать «низко висящие фрукты» в области рисков и готовить протоколы безопасности еще до того, как модель закончит обучение [2:10:10]. Аллан Дафо отмечает, что в одном из недавних исследований суперфоркастеры тестировались на целой батарее оценок (evals), и результаты оказались крайне многообещающими для интеграции в корпоративные процессы [2:12:56].

### Frontier Safety Framework: протоколы на случай опасности
[[JUMP:2:15:06]]

Когда прогнозы или прямые оценки (о которых шла речь в предыдущих главах) показывают, что модель приближается к критическому порогу опасности, вступают в силу внутренние регламенты. Ключевым инструментом здесь выступает Frontier Safety Framework — стратегия Google по управлению экстремальными рисками [2:15:22].

Суть фреймворка заключается в установлении четких «красных линий». Если модель демонстрирует способности, которые могут быть использованы для дестабилизации кибербезопасности или создания биологических угроз, компания обязана предпринять конкретные шаги — от усиления мер киберзащиты самой модели до полной остановки развертывания [2:16:29]. Аллан Дафо поясняет, что цель этих мер не в том, чтобы оставить контроль исключительно в руках корпорации, а в создании прозрачного процесса, который может быть проверен извне.

В этом контексте Google DeepMind активно сотрудничает с государственными институтами безопасности ИИ (AI Safety Institutes) и участвует в работе Frontier Model Forum [2:17:35]. Это позволяет перевести дискуссию из плоскости «доверяйте нам на слово» в плоскость стандартизированных проверок, где регуляторы и независимые эксперты могут подтвердить, что модель безопасна для общества [2:18:25].

### Структурные риски: когда проблема не в коде, а в системе
[[JUMP:2:18:56]]

Традиционно риски ИИ делят на две категории: «злонамеренное использование» (преступник использует ИИ как инструмент) и «несчастные случаи» (ошибки в коде или несовпадение целей) [2:19:44]. Однако Аллан Дафо вводит третью, критически важную категорию — структурные риски [2:20:42].

Структурные риски возникают не из-за чьего-то злого умысла, а из-за того, как сама технология меняет глобальные политические и социальные системы. В качестве исторической аналогии Дафо приводит Холодную войну и Карибский кризис [2:21:12]. Ядерная катастрофа едва не случилась не потому, что кто-то этого хотел, а из-за самой структуры противостояния двух сверхдержав, где логика эскалации диктовала опасные шаги.

В мире ИИ структурные риски могут проявляться следующим образом:

*   Ускорение темпов принятия решений, лишающее дипломатов времени на переговоры [2:22:13].
*   Изменение баланса сил, которое заставляет страны вступать в гонку вооружений, даже если они осознают её опасность [2:21:45].
*   Эффект «железных рельсов»: когда технология внедрена в критическую инфраструктуру, её влияние становится инерционным, и его крайне сложно остановить или скорректировать [2:22:47].

Эти риски невозможно устранить простым патчем безопасности; они требуют межгосударственного диалога и глубоких структурных реформ на уровне правительств [2:23:34].

### Демократическая легитимность: кто должен решать судьбу AGI?
[[JUMP:2:23:36]]

Одним из самых острых вопросов обсуждения становится легитимность разработки ИИ. Аллан Дафо признает растущее недовольство тем, что решения, способные изменить ход истории человечества, принимаются узким кругом лиц в частных компаниях [2:24:05]. Это создает дефицит демократического участия, особенно учитывая, что последствия разработки AGI затронут людей во всем мире, включая те страны, которые не участвуют в создании технологий [2:24:20].

Дафо вспоминает опыт 1970-х годов, когда при обсуждении генетических технологий предлагалось создавать «советы граждан» (citizen councils) для рефлексии над тем, как должно развиваться научное направление [2:26:45]. Сегодня аналогичный подход необходим и для ИИ.

> «Вопрос, на который нужно ответить: как вовлечь в этот разговор не только разработчиков, но и врачей, юристов, ученых и всё общество в целом?» [2:28:40]

Аллан подчеркивает, что Google DeepMind готов к более жесткому государственному надзору. Компании осознают, что для поддержания доверия им необходимо не просто заявлять о своей ответственности, но и быть готовыми к тому, что их работа будет подвергаться демократическому контролю и общественной экспертизе [2:30:15]. Без этого «социального контракта» разработка мощных систем ИИ рискует столкнуться с массовым сопротивлением и политической нестабильностью.

## 🛡️ Будущее под контролем: риски распространения весов и созидательный потенциал ИИ

### Необратимость прогресса: риски открытых весов и доступность технологий
[[JUMP:2:32:53]]

Одной из самых острых проблем в управлении ИИ Аллан Дафо считает вопрос распространения весов моделей (open weights). В то время как крупные лаборатории, такие как Google DeepMind, добровольно принимают на себя обязательства по безопасности и внедряют системы оценки рисков (Frontier Safety Framework), публикация весов в открытом доступе делает процесс владения технологией практически необратимым [2:31:27]. Если веса мощной модели становятся публичными, любые встроенные в неё фильтры безопасности могут быть удалены злоумышленниками с помощью относительно недорогой дообучающей настройки.

Проблема усугубляется стремительным ростом алгоритмической эффективности. Аллан Дафо ссылается на данные группы Epoch AI, согласно которым стоимость вычислительных мощностей, необходимых для достижения того же уровня производительности, падает очень быстро [2:33:50]. Модель, обучение которой сегодня стоит 100 миллионов долларов, через пару лет может быть воспроизведена за 10 миллионов или даже меньше [2:34:12]. 

Это создает ситуацию, когда «вчерашние» фронтирные модели становятся доступны широкому кругу лиц. Дафо отмечает:

*   Контролировать технологию гораздо проще, пока она не разошлась по миру в виде открытых файлов весов [2:34:42].
*   Даже если модель считается «устаревшей» по меркам лидеров рынка, она всё ещё может обладать опасными способностями, которые можно использовать во вред [2:35:13].
*   Единственным способом противостоять безответственному использованию старых моделей является сохранение значительного ресурсного преимущества у «защитников» — тех, кто использует более мощные и современные системы для мониторинга и нейтрализации угроз [2:35:40].

### Баланс нападения и защиты в цифровую эпоху
[[JUMP:2:36:16]]

Рассуждая о будущем, Дафо анализирует критический вопрос: кому ИИ даст больше преимуществ — нападающему или защищающемуся? В классической теории безопасности этот баланс определяет общую стабильность системы. В эпоху ИИ ситуация выглядит неоднозначно [2:36:33].

Особую тревогу вызывают биологические риски. В сценарии создания нового патогена или биооружия нападающему достаточно одного успеха, в то время как защита требует разработки, тестирования и распространения вакцины, что занимает месяцы. Аллан подчеркивает, что «огромный ущерб может быть нанесен еще до того, как защита будет развернута» [2:36:45].

В сфере кибербезопасности ситуация может быть более оптимистичной. ИИ позволяет создавать своего рода «иммунную систему» для программного обеспечения [2:37:34]. В отличие от людей, которые медленно реагируют на новые угрозы и часто пренебрегают гигиеной безопасности, ИИ-агенты защиты могут:

1.  Автоматически находить и «заплатывать» уязвимости в коде быстрее, чем их найдут хакеры.
2.  Создавать устойчивые операционные системы, способные отражать атаки в режиме реального времени [2:37:18].
3.  Нивелировать человеческий фактор (инерцию), который Дафо называет одной из главных слабостей текущих систем безопасности [2:38:02].

Для того чтобы склонить чашу весов в сторону защиты, Дафо призывает привлекать в индустрию не только технарей, но и социологов, этнографов и экспертов по этике [2:39:17]. Google DeepMind активно расширяет команды, работающие над нетехническими аспектами безопасности, чтобы лучше понимать, как ИИ взаимодействует с общественными институтами [2:40:26].

### Созидательная сила ИИ: от медицины до образования
[[JUMP:2:41:23]]

Несмотря на серьезность рисков, Аллан Дафо остается оптимистом относительно того, какой вклад ИИ может внести в развитие человечества, если безопасность будет обеспечена на должном уровне [2:41:38]. Он приводит в пример технологию Waymo: статистика показывает, что беспилотные автомобили попадают в аварии с травмами в шесть раз реже, чем водители-люди [2:42:42]. Это наглядный пример того, как автоматизация напрямую спасает жизни.

В области медицины потенциал ИИ кажется еще более глубоким. Дафо упоминает успехи моделей семейства Med-PaLM и наследие AlphaFold [2:43:47]. ИИ способен стать «персональным медицинским консультантом», который проанализирует симптомы и успокоит пользователя или, наоборот, вовремя направит к врачу, значительно снижая нагрузку на систему здравоохранения [2:43:33].

Другое важное направление — образование. Аллан, сам будучи отцом, видит огромные перспективы в ИИ-тьюторах [2:44:46]. 

*   **Персонализация:** ИИ может подстраиваться под темп обучения каждого ребенка, что невозможно в условиях обычного класса, где учителю приходится заниматься «управлением аудиторией» (classroom management) в ущерб качеству преподавания [2:45:15].
*   **Доступность:** Инструменты вроде Khan Academy уже внедряют ИИ, чтобы дать качественное образование тем, кто лишен доступа к лучшим школам [2:45:58].

Наконец, Дафо выделяет роль ИИ в решении экологических проблем [2:47:07]. Google DeepMind уже реализовал проекты по оптимизации энергопотребления дата-центров (система Borg) и прогнозированию выработки энергии ветряными электростанциями [2:48:16]. Улучшение прогнозов погоды и оптимизация работы солнечных батарей с помощью ИИ могут ускорить переход к «зеленой» экономике, делая её более эффективной и дешевой [2:47:49].

Ранее в разговоре они касались темы Frontier Safety Framework, но именно в этих прикладных успехах Дафо видит оправдание всем усилиям по разработке AGI.