Дэниел Кокотайло и Дин У. Болл: как обеспечить прозрачность лабораторий AGI и защитить информаторов

The Cognitive Revolution 1,5 тыс. 1 ч 59 мин 5 мин 12.11.2024
Главное

В новом выпуске подкаста The Cognitive Revolution встретились два эксперта с принципиально разными взглядами на регулирование технологий: эксперт по государственной политике Дин У. Болл и бывший исследователь безопасности OpenAI Дэниел Кокотайло. В центре дискуссии — их совместная инициатива, опубликованная в журнале Time, которая предлагает четыре конкретных механизма обеспечения прозрачности в лабораториях, разрабатывающих искусственный интеллект общего уровня (AGI).

🛡️ Этический демарш в OpenAI: цена свободы слова 0:00

Дэниел Кокотайло покинул OpenAI 12 апреля 2024 года, проработав в компании около двух лет в команде по стратегическому планированию и безопасности AGI . Его уход стал резонансным событием в индустрии ИИ: исследователь отказался подписывать стандартное соглашение при увольнении, которое включало пункт о неразглашении и запрет на критику компании .

По словам ведущего Натана Лабенца, это решение стоило Кокотайло миллионов долларов в виде невыплаченных опционов (vested equity), что на тот момент составляло большую часть его личного состояния .

Основные причины ухода Кокотайло:

Позже, под давлением общественности и СМИ, OpenAI изменила внутреннюю политику, отменив практику лишения сотрудников заработанных акций за отказ от молчания, и восстановила капитал Кокотайло .

📈 Пророчество 2021 года: что сбылось, а что нет 9:38

В 2021 году Дэниел Кокотайло опубликовал на форуме LessWrong эссе «Как выглядит 2026 год» (What 2026 looks like), ставшее культовым в сообществе прогнозистов ИИ . Сегодня автор оценивает свои предсказания как «умеренно точные».

Что подтвердилось, по мнению Кокотайло:

В чём он ошибся:

Дин У. Болл добавляет, что внедрение технологий всегда занимает больше времени, чем кажется . Он отмечает, что даже если технология готова, институциональные изменения и изменения в мышлении руководителей происходят с задержкой .

🚀 2027 год: точка невозврата и автоматизация R&D 37:39

Участники дискуссии сошлись во мнении, что 2027 год является «серединой распределения» для появления AGI . Кокотайло определяет AGI как систему, способную выполнять любые когнитивные задачи на уровне лучших экспертов-людей .

Ключевые факторы ускорения, по мнению собеседников:

  1. Автономные агенты. Anthropic уже представила базовую функцию «использования компьютера» (computer use). Через несколько лет такие системы станут надёжными .
  2. Автоматизация исследований (AI R&D). Это самый мощный фактор. Когда ИИ сможет выполнять 99% задач в цикле разработки новых моделей ИИ, прогресс ускорится в 10 и более раз .
  3. Обучение агентности. Вместо простого предсказания следующего слова (text prediction) компании переходят к обучению с подкреплением (RL) в сложных средах, что видно на примере модели o1 от OpenAI .

Дин У. Болл считает, что создание AGI — это уже не столько научная проблема, сколько инженерная и геополитическая . По его прогнозу, через 4 года обычный пользователь сможет запустить на своём ноутбуке 10 000 интеллектуальных агентов для решения любых экспертных задач .

🔍 Четыре столпа прозрачности: предложение Кокотайло и Болла 1:04:42

Главная цель совместного проекта участников — улучшить информационную среду вокруг ИИ, чтобы государственная политика не строилась на догадках .

Предложенные требования к Frontier Labs (ведущим лабораториям):

  1. Раскрытие новых возможностей. Лаборатории обязаны информировать правительство и общественность, когда при обучении модели достигается новый порог способностей . Также они должны публиковать «планы ответственного масштабирования» (Responsible Scaling Plans) .
  2. Публикация спецификаций моделей (Model Specs). Документ, описывающий, как ИИ должен себя вести. Кокотайло подчеркивает важность иерархии ценностей: что ИИ должен делать, когда инструкции пользователя конфликтуют с принципами компании .
  3. Создание «кейсов безопасности» (Safety Cases). Это детальные аргументы и результаты экспериментов, доказывающие, почему конкретная мощная модель не приведёт к катастрофическим последствиям . По мнению Кокотайло, сейчас это «разговоры в столовой», а должно стать публичным научным процессом .
  4. Защита информаторов (Whistleblower Protections). Создание законных механизмов, позволяющих сотрудникам сообщать о нарушениях протоколов безопасности в надзорные органы без страха юридической расправы или потери капитала .

🏛️ Концентрация власти и геополитические риски 55:28

Кокотайло выражает опасение, что по умолчанию мир движется к беспрецедентной концентрации власти. Он называет это «военно-корпоративным комплексом AGI» .

По мнению Кокотайло:

Дин У. Болл видит в этом аргумент в пользу открытого исходного кода (Open Source). Он считает, что сохранение децентрализованного доступа к ИИ — это единственный способ избежать «тёмных сценариев», где сверхмощные системы принадлежат только ЦРУ или гигантским корпорациям .

🧪 Проблема «выживания любой ценой»: мнения об OpenAI 1:18:48

Кокотайло утверждает, что стимулы коммерческой гонки заставляют компании рационализировать риски. Он не доверяет суждениям руководителей лабораторий, когда на кону стоят миллиарды долларов и статус «героя истории» .

Интересные факты о безопасности в OpenAI, упомянутые в дискуссии:

Дин У. Болл занимает более умеренную позицию. Он считает OpenAI «молодой компанией на ракете», которая проходит через неизбежную турбулентность . Он скептически относится к государственному контролю, опасаясь, что регулируемый государством ИИ будет «бесконечно политкорректным, но всё равно может нас убить» . Вместо госрегулятора Болл предлагает развивать систему частного страхования рисков ИИ, по аналогии с морским страхованием в эпоху становления капитализма .

💬 Цитаты

«Я постепенно потерял надежду на то, что компания будет вести себя ответственно, чтобы справиться с AGI.»

Дэниел Кокотайло 0:14

«Существует шекспировская связь между намерениями государственной политики и тем, что происходит на самом деле.»

Дин У. Болл 0:26

«В будущем правительственный ИИ может не говорить слово на букву 'Н', но при этом всё равно убить нас всех.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
AGI
Искусственный интеллект общего уровня, способный выполнять любую интеллектуальную задачу не хуже человека.
Alignment (согласование)
Техническая проблема обеспечения того, чтобы цели ИИ совпадали с человеческими ценностями и интересами.
Model Spec
Документ, определяющий желаемое поведение модели и приоритеты при конфликте разных инструкций.
Frontier Labs
Ведущие компании-разработчики ИИ, находящиеся на переднем крае технологий (OpenAI, Anthropic, Google DeepMind).
📊 Цифры
🗓 Хронология
  1. 2021 Публикация эссе 'What 2026 Looks Like' на форуме LessWrong.
  2. Апрель 2024 Уход Дэниела Кокотайло из OpenAI и отказ от выплат ради свободы слова.
  3. Октябрь 2024 Запуск Anthropic функции 'computer use', предваряющей появление агентов AGI.
  4. 2027 Прогнозируемое достижение уровня AGI и автоматизация научных исследований ИИ.
⚖️ Другая сторона
Искусственный интеллект OpenAI AGI Lab Дэниел Кокотайло Дин У. Болл AI Safety