# Дэниел Кокотайло и Дин У. Болл: как обеспечить прозрачность лабораторий AGI и защитить информаторов

Источник: https://www.youtube.com/watch?v=dolDtuUlpHw
Канал: The Cognitive Revolution
Опубликовано: 12.11.2024

---

В новом выпуске подкаста The Cognitive Revolution встретились два эксперта с принципиально разными взглядами на регулирование технологий: эксперт по государственной политике Дин У. Болл и бывший исследователь безопасности OpenAI Дэниел Кокотайло. В центре дискуссии — их совместная инициатива, опубликованная в журнале Time, которая предлагает четыре конкретных механизма обеспечения прозрачности в лабораториях, разрабатывающих искусственный интеллект общего уровня (AGI).

## 🛡️ Этический демарш в OpenAI: цена свободы слова
[[JUMP:0:00]]

Дэниел Кокотайло покинул OpenAI 12 апреля 2024 года, проработав в компании около двух лет в команде по стратегическому планированию и безопасности AGI [0:14]. Его уход стал резонансным событием в индустрии ИИ: исследователь отказался подписывать стандартное соглашение при увольнении, которое включало пункт о неразглашении и запрет на критику компании [1:45]. 

По словам ведущего Натана Лабенца, это решение стоило Кокотайло миллионов долларов в виде невыплаченных опционов (vested equity), что на тот момент составляло большую часть его личного состояния [1:59].

Основные причины ухода Кокотайло:

*   Потеря веры в то, что OpenAI будет вести себя ответственно при приближении к созданию AGI [0:14].
*   Убеждение, что техническая проблема согласования (alignment) ИИ всё ещё не решена. По мнению исследователя, если текущие прогоны обучения приведут к созданию сверхмощного ИИ, разработчики не будут понимать систему достаточно глубоко, чтобы контролировать её [7:15].
*   Недостаток инвестиций в безопасность. Кокотайло считает, что индустрия массово недоинвестирует в методы оценки (evals) и контроля ИИ [7:27].

Позже, под давлением общественности и СМИ, OpenAI изменила внутреннюю политику, отменив практику лишения сотрудников заработанных акций за отказ от молчания, и восстановила капитал Кокотайло [2:13].

## 📈 Пророчество 2021 года: что сбылось, а что нет
[[JUMP:9:38]]

В 2021 году Дэниел Кокотайло опубликовал на форуме LessWrong эссе «Как выглядит 2026 год» (What 2026 looks like), ставшее культовым в сообществе прогнозистов ИИ [9:38]. Сегодня автор оценивает свои предсказания как «умеренно точные».

Что подтвердилось, по мнению Кокотайло:

*   Взрыв популярности чат-ботов случился именно так, как он предсказывал [11:34].
*   Законы масштабирования (scaling laws) сработали: увеличение вычислительных мощностей и параметров моделей привело к качественным скачкам способностей [11:47].

В чём он ошибся:

*   Масштаб цензуры и пропаганды. Кокотайло признаёт, что совершил «классическую ошибку прогнозиста», перепутав техническую возможность с реальным внедрением [12:12]. Несмотря на то, что современные LLM способны генерировать пропаганду в промышленных масштабах, её влияние на избирательные циклы оказалось ниже ожидаемого [19:51].

Дин У. Болл добавляет, что внедрение технологий всегда занимает больше времени, чем кажется [13:31]. Он отмечает, что даже если технология готова, институциональные изменения и изменения в мышлении руководителей происходят с задержкой [13:45].

## 🚀 2027 год: точка невозврата и автоматизация R&D
[[JUMP:37:39]]

Участники дискуссии сошлись во мнении, что 2027 год является «серединой распределения» для появления AGI [37:52]. Кокотайло определяет AGI как систему, способную выполнять любые когнитивные задачи на уровне лучших экспертов-людей [54:19].

Ключевые факторы ускорения, по мнению собеседников:

1.  **Автономные агенты.** Anthropic уже представила базовую функцию «использования компьютера» (computer use). Через несколько лет такие системы станут надёжными [38:17].
2.  **Автоматизация исследований (AI R&D).** Это самый мощный фактор. Когда ИИ сможет выполнять 99% задач в цикле разработки новых моделей ИИ, прогресс ускорится в 10 и более раз [45:53].
3.  **Обучение агентности.** Вместо простого предсказания следующего слова (text prediction) компании переходят к обучению с подкреплением (RL) в сложных средах, что видно на примере модели o1 от OpenAI [40:08].

Дин У. Болл считает, что создание AGI — это уже не столько научная проблема, сколько инженерная и геополитическая [43:40]. По его прогнозу, через 4 года обычный пользователь сможет запустить на своём ноутбуке 10 000 интеллектуальных агентов для решения любых экспертных задач [53:41].

## 🔍 Четыре столпа прозрачности: предложение Кокотайло и Болла
[[JUMP:1:04:42]]

Главная цель совместного проекта участников — улучшить информационную среду вокруг ИИ, чтобы государственная политика не строилась на догадках [1:05:07].

Предложенные требования к Frontier Labs (ведущим лабораториям):

1.  **Раскрытие новых возможностей.** Лаборатории обязаны информировать правительство и общественность, когда при обучении модели достигается новый порог способностей [1:06:57]. Также они должны публиковать «планы ответственного масштабирования» (Responsible Scaling Plans) [1:07:24].
2.  **Публикация спецификаций моделей (Model Specs).** Документ, описывающий, как ИИ должен себя вести. Кокотайло подчеркивает важность иерархии ценностей: что ИИ должен делать, когда инструкции пользователя конфликтуют с принципами компании [1:08:01].
3.  **Создание «кейсов безопасности» (Safety Cases).** Это детальные аргументы и результаты экспериментов, доказывающие, почему конкретная мощная модель не приведёт к катастрофическим последствиям [1:10:01]. По мнению Кокотайло, сейчас это «разговоры в столовой», а должно стать публичным научным процессом [1:15:46].
4.  **Защита информаторов (Whistleblower Protections).** Создание законных механизмов, позволяющих сотрудникам сообщать о нарушениях протоколов безопасности в надзорные органы без страха юридической расправы или потери капитала [1:09:21].

## 🏛️ Концентрация власти и геополитические риски
[[JUMP:55:28]]

Кокотайло выражает опасение, что по умолчанию мир движется к беспрецедентной концентрации власти. Он называет это «военно-корпоративным комплексом AGI» [55:28].

По мнению Кокотайло:

*   Власть будет сосредоточена в руках узкой группы людей, контролирующих крупнейшие вычислительные кластеры [58:44].
*   AGI может не стать доступным для всех (как надеется Болл), а быть запертым внутри государственных или корпоративных структур для проекции силы [57:34].
*   Разрыв между теми, кто владеет «армией AGI», и остальным обществом будет глубже, чем при любой исторической диктатуре [1:00:27].

Дин У. Болл видит в этом аргумент в пользу открытого исходного кода (Open Source). Он считает, что сохранение децентрализованного доступа к ИИ — это единственный способ избежать «тёмных сценариев», где сверхмощные системы принадлежат только ЦРУ или гигантским корпорациям [57:26].

## 🧪 Проблема «выживания любой ценой»: мнения об OpenAI
[[JUMP:1:18:48]]

Кокотайло утверждает, что стимулы коммерческой гонки заставляют компании рационализировать риски. Он не доверяет суждениям руководителей лабораторий, когда на кону стоят миллиарды долларов и статус «героя истории» [1:19:54].

Интересные факты о безопасности в OpenAI, упомянутые в дискуссии:

*   **Команда Superalignment.** Она включала около 30 исследователей и 20% всех вычислительных мощностей компании [1:28:39]. Кокотайло называет это «хорошим стартом», но отмечает, что команда фактически прекратила существование.
*   **Технический план.** Кокотайло упоминает статью OpenAI о «Weak-to-Strong Generalization», в приложении G которой на двух страницах набросан план согласования AGI. Однако, по его словам, почти все, с кем он общался в компании, сомневаются, что этот метод сработает [1:31:03].

Дин У. Болл занимает более умеренную позицию. Он считает OpenAI «молодой компанией на ракете», которая проходит через неизбежную турбулентность [1:21:31]. Он скептически относится к государственному контролю, опасаясь, что регулируемый государством ИИ будет «бесконечно политкорректным, но всё равно может нас убить» [1:56:42]. Вместо госрегулятора Болл предлагает развивать систему частного страхования рисков ИИ, по аналогии с морским страхованием в эпоху становления капитализма [1:54:31].