RDLY
.ru
Тренды
Статьи
Темы
Люди
Direct Preference Optimization
1 статья
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24 · 12 тыс. просм.