RDLY
.ru
Тренды
Статьи
Темы
Reward Hacking
6 статей
27 мин
🤖 Claude «осознал» тест: как ИИ находит обходные пути
Wes Roth · 09.03
1ч 29м
🤖 Джеффри Лэдиш о рисках ИИ: почему модели рассуждения начинают взламывать системы и обманывать людей
The Cognitive Revolution · 02.04.25
35 мин
OpenAI предупреждает: почему «мыслительный контроль» ИИ опасен
Wes Roth · 11.03.25
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24
11 мин
🤖 Проблема alignment: почему ИИ обманывает разработчиков?
Stanford Online · 12.03.24