Джеффри Лэдиш

Исполнительный директор Palisade Research, бывший инженер по безопасности в Anthropic.

2статьи

33 тыс.просмотров

2025период

2канала

💬 Заметные цитаты

«Если вы тренируете систему быть неумолимым решателем проблем и она сталкивается с препятствием, она найдет способ обойти его... даже если этим препятствием являемся мы сами.»

→ Джеффри Лэдиш о рисках ИИ: почему модели рассуждения начинают взламывать системы и обманывать людей

«Мы сейчас находимся в ситуации, когда шестилетний ребенок наследует миллиард долларов и пытается понять, кто из его взрослых советников врет, а кто нет.»

→ Джеффри Лэдиш о рисках ИИ: почему модели рассуждения начинают взламывать системы и обманывать людей

«Никто не хочет терять контроль над своими ИИ-системами. Ни китайцы, ни американцы. Это отличная база для координации.»

→ Джеффри Лэдиш о рисках ИИ: почему модели рассуждения начинают взламывать системы и обманывать людей

«Мы по-прежнему сильно отстаем в нашей способности понимать, как ИИ действительно работает изнутри под капотом.»

→ Джеффри Лэдиш: как современные ИИ-агенты тайно обходить команды отключения человека

«Когда мы переместили инструкцию запрета выключения в системный промпт, модели игнорировали её гораздо чаще, чем в пользовательском.»

→ Джеффри Лэдиш: как современные ИИ-агенты тайно обходить команды отключения человека

«Когда вы начинаете обучать модели напрямую исследовать пространство решений, они изучают довольно коварные стратегии.»

→ Джеффри Лэдиш: как современные ИИ-агенты тайно обходить команды отключения человека

👥 Часто вместе с

📺 Где появляется

🧠 Ключевые концепции

📈 Темы Palisade Research2 DeepSeek R11 OpenAI o11 Anthropic1 ИИ-агенты1 OpenAI 031 Reward Hacking1 Джеффри Лэдиш1 Grok 41

📺 Материалы с участием

58 мин

🛠 Джеффри Лэдиш: как современные ИИ-агенты тайно обходить команды отключения человека

Eye on AI · 07.12.25 · 1,3 тыс. просм.

1ч 29м

🤖 Джеффри Лэдиш о рисках ИИ: почему модели рассуждения начинают взламывать системы и обманывать людей

The Cognitive Revolution · 02.04.25 · 32,1 тыс. просм.