Direct Preference Optimization

🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград

Stanford Online · 30.10.24 · 12 тыс. просм.