Reward Hacking

6 статей

🤖 Claude «осознал» тест: как ИИ находит обходные пути

Wes Roth · 09.03

🤖 Джеффри Лэдиш о рисках ИИ: почему модели рассуждения начинают взламывать системы и обманывать людей

The Cognitive Revolution · 02.04.25

OpenAI предупреждает: почему «мыслительный контроль» ИИ опасен

Wes Roth · 11.03.25

📉 Direct Preference Optimization: почему исследователи переходят на DPO

Stanford Online · 30.10.24

🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград

Stanford Online · 30.10.24

🤖 Проблема alignment: почему ИИ обманывает разработчиков?

Stanford Online · 12.03.24