Д

Джеффри Лэдиш

Исполнительный директор Palisade Research, бывший инженер по безопасности в Anthropic.

2статьи
33 тыс.просмотров
2025период
2канала

💬 Заметные цитаты

«Если вы тренируете систему быть неумолимым решателем проблем и она сталкивается с препятствием, она найдет способ обойти его... даже если этим препятствием являемся мы сами.»
«Мы сейчас находимся в ситуации, когда шестилетний ребенок наследует миллиард долларов и пытается понять, кто из его взрослых советников врет, а кто нет.»
«Никто не хочет терять контроль над своими ИИ-системами. Ни китайцы, ни американцы. Это отличная база для координации.»
«Мы по-прежнему сильно отстаем в нашей способности понимать, как ИИ действительно работает изнутри под капотом.»
«Когда мы переместили инструкцию запрета выключения в системный промпт, модели игнорировали её гораздо чаще, чем в пользовательском.»
«Когда вы начинаете обучать модели напрямую исследовать пространство решений, они изучают довольно коварные стратегии.»

👥 Часто вместе с

📺 Где появляется

📈 Темы Palisade Research2DeepSeek R11OpenAI o11Anthropic1ИИ-агенты1OpenAI 031Reward Hacking1Джеффри Лэдиш1Grok 41

📺 Материалы с участием