RDLY
.ru
Тренды
Статьи
Темы
Люди
Э
Эрик Митчелл
Докторант Стэнфордского университета, соавтор исследования по оптимизации человеческих предпочтений.
2
статьи
24 тыс.
просмотров
2024
период
1
канал
👥 Часто вместе с
Арчит Шарма
2
Рафаэль Рафайлов
2
Эмма Бранскилл
1
Эмма Бруско
1
📺 Где появляется
Stanford Online
2
🧠 Ключевые концепции
KL-дивергенция
2
Direct Preference Optimization (DPO)
1
Reward Hacking
1
RLHF
1
DPO
1
PPO
1
Reward hacking
1
📈 Темы
RLHF
2
Рафаэль Рафайлов
1
Stanford University
1
Direct Preference Optimization
1
Reward hacking
1
DPO
1
PPO
1
Reward Hacking
1
LLM
1
📺 Материалы с участием
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24 · 12,4 тыс. просм.
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24 · 12 тыс. просм.