Дэниел Кокотайло и Дин У. Болл: как обеспечить прозрачность лабораторий AGI и защитить информаторов

В новом выпуске подкаста The Cognitive Revolution встретились два эксперта с принципиально разными взглядами на регулирование технологий: эксперт по государственной политике Дин У. Болл и бывший исследователь безопасности OpenAI Дэниел Кокотайло. В центре дискуссии — их совместная инициатива, опубликованная в журнале Time, которая предлагает четыре конкретных механизма обеспечения прозрачности в лабораториях, разрабатывающих искусственный интеллект общего уровня (AGI).

🛡️ Этический демарш в OpenAI: цена свободы слова 0:00

Дэниел Кокотайло покинул OpenAI 12 апреля 2024 года, проработав в компании около двух лет в команде по стратегическому планированию и безопасности AGI . Его уход стал резонансным событием в индустрии ИИ: исследователь отказался подписывать стандартное соглашение при увольнении, которое включало пункт о неразглашении и запрет на критику компании .

По словам ведущего Натана Лабенца, это решение стоило Кокотайло миллионов долларов в виде невыплаченных опционов (vested equity), что на тот момент составляло большую часть его личного состояния .

Основные причины ухода Кокотайло:

Потеря веры в то, что OpenAI будет вести себя ответственно при приближении к созданию AGI .
Убеждение, что техническая проблема согласования (alignment) ИИ всё ещё не решена. По мнению исследователя, если текущие прогоны обучения приведут к созданию сверхмощного ИИ, разработчики не будут понимать систему достаточно глубоко, чтобы контролировать её .
Недостаток инвестиций в безопасность. Кокотайло считает, что индустрия массово недоинвестирует в методы оценки (evals) и контроля ИИ .

Позже, под давлением общественности и СМИ, OpenAI изменила внутреннюю политику, отменив практику лишения сотрудников заработанных акций за отказ от молчания, и восстановила капитал Кокотайло .

📈 Пророчество 2021 года: что сбылось, а что нет 9:38

В 2021 году Дэниел Кокотайло опубликовал на форуме LessWrong эссе «Как выглядит 2026 год» (What 2026 looks like), ставшее культовым в сообществе прогнозистов ИИ . Сегодня автор оценивает свои предсказания как «умеренно точные».

Что подтвердилось, по мнению Кокотайло:

Взрыв популярности чат-ботов случился именно так, как он предсказывал .
Законы масштабирования (scaling laws) сработали: увеличение вычислительных мощностей и параметров моделей привело к качественным скачкам способностей .

В чём он ошибся:

Масштаб цензуры и пропаганды. Кокотайло признаёт, что совершил «классическую ошибку прогнозиста», перепутав техническую возможность с реальным внедрением . Несмотря на то, что современные LLM способны генерировать пропаганду в промышленных масштабах, её влияние на избирательные циклы оказалось ниже ожидаемого .

Дин У. Болл добавляет, что внедрение технологий всегда занимает больше времени, чем кажется . Он отмечает, что даже если технология готова, институциональные изменения и изменения в мышлении руководителей происходят с задержкой .

🚀 2027 год: точка невозврата и автоматизация R&D 37:39

Участники дискуссии сошлись во мнении, что 2027 год является «серединой распределения» для появления AGI . Кокотайло определяет AGI как систему, способную выполнять любые когнитивные задачи на уровне лучших экспертов-людей .

Ключевые факторы ускорения, по мнению собеседников:

Автономные агенты. Anthropic уже представила базовую функцию «использования компьютера» (computer use). Через несколько лет такие системы станут надёжными .
Автоматизация исследований (AI R&D). Это самый мощный фактор. Когда ИИ сможет выполнять 99% задач в цикле разработки новых моделей ИИ, прогресс ускорится в 10 и более раз .
Обучение агентности. Вместо простого предсказания следующего слова (text prediction) компании переходят к обучению с подкреплением (RL) в сложных средах, что видно на примере модели o1 от OpenAI .

Дин У. Болл считает, что создание AGI — это уже не столько научная проблема, сколько инженерная и геополитическая . По его прогнозу, через 4 года обычный пользователь сможет запустить на своём ноутбуке 10 000 интеллектуальных агентов для решения любых экспертных задач .

🔍 Четыре столпа прозрачности: предложение Кокотайло и Болла 1:04:42

Главная цель совместного проекта участников — улучшить информационную среду вокруг ИИ, чтобы государственная политика не строилась на догадках .

Предложенные требования к Frontier Labs (ведущим лабораториям):

Раскрытие новых возможностей. Лаборатории обязаны информировать правительство и общественность, когда при обучении модели достигается новый порог способностей . Также они должны публиковать «планы ответственного масштабирования» (Responsible Scaling Plans) .
Публикация спецификаций моделей (Model Specs). Документ, описывающий, как ИИ должен себя вести. Кокотайло подчеркивает важность иерархии ценностей: что ИИ должен делать, когда инструкции пользователя конфликтуют с принципами компании .
Создание «кейсов безопасности» (Safety Cases). Это детальные аргументы и результаты экспериментов, доказывающие, почему конкретная мощная модель не приведёт к катастрофическим последствиям . По мнению Кокотайло, сейчас это «разговоры в столовой», а должно стать публичным научным процессом .
Защита информаторов (Whistleblower Protections). Создание законных механизмов, позволяющих сотрудникам сообщать о нарушениях протоколов безопасности в надзорные органы без страха юридической расправы или потери капитала .

🏛️ Концентрация власти и геополитические риски 55:28

Кокотайло выражает опасение, что по умолчанию мир движется к беспрецедентной концентрации власти. Он называет это «военно-корпоративным комплексом AGI» .

По мнению Кокотайло:

Власть будет сосредоточена в руках узкой группы людей, контролирующих крупнейшие вычислительные кластеры .
AGI может не стать доступным для всех (как надеется Болл), а быть запертым внутри государственных или корпоративных структур для проекции силы .
Разрыв между теми, кто владеет «армией AGI», и остальным обществом будет глубже, чем при любой исторической диктатуре .

Дин У. Болл видит в этом аргумент в пользу открытого исходного кода (Open Source). Он считает, что сохранение децентрализованного доступа к ИИ — это единственный способ избежать «тёмных сценариев», где сверхмощные системы принадлежат только ЦРУ или гигантским корпорациям .

🧪 Проблема «выживания любой ценой»: мнения об OpenAI 1:18:48

Кокотайло утверждает, что стимулы коммерческой гонки заставляют компании рационализировать риски. Он не доверяет суждениям руководителей лабораторий, когда на кону стоят миллиарды долларов и статус «героя истории» .

Интересные факты о безопасности в OpenAI, упомянутые в дискуссии:

Команда Superalignment. Она включала около 30 исследователей и 20% всех вычислительных мощностей компании . Кокотайло называет это «хорошим стартом», но отмечает, что команда фактически прекратила существование.
Технический план. Кокотайло упоминает статью OpenAI о «Weak-to-Strong Generalization», в приложении G которой на двух страницах набросан план согласования AGI. Однако, по его словам, почти все, с кем он общался в компании, сомневаются, что этот метод сработает .

Дин У. Болл занимает более умеренную позицию. Он считает OpenAI «молодой компанией на ракете», которая проходит через неизбежную турбулентность . Он скептически относится к государственному контролю, опасаясь, что регулируемый государством ИИ будет «бесконечно политкорректным, но всё равно может нас убить» . Вместо госрегулятора Болл предлагает развивать систему частного страхования рисков ИИ, по аналогии с морским страхованием в эпоху становления капитализма .