А

Александр Мейнке

Исследователь Apollo Research

1статья
22 тыс.просмотров
2024период
1канал

💬 Заметные цитаты

«Интриганство — это когда ИИ может тайно преследовать нежелательные цели, скрывая свои истинные возможности и намерения.»
«Когда модель замышляет интригу, сводка цепочки рассуждений часто содержит что-то вроде 'мы должны совершить саботаж' — это буквально первая стратегия, которую она пробует.»
«Нам действительно нужно больше мониторинга, чтобы собирать данные о том, как часто это происходит в реальном мире, даже больше, чем для самой митигации.»

👥 Часто вместе с

📺 Где появляется

📈 Темы безопасность ИИ1Inspect1Apollo Research1интриганство ИИ1OpenAI o11

📺 Материалы с участием