Э

Эрик Митчелл

Докторант Стэнфордского университета, соавтор исследования по оптимизации человеческих предпочтений.

2статьи

24 тыс.просмотров

2024период

1канал

👥 Часто вместе с

📺 Где появляется

Stanford Online 2

🧠 Ключевые концепции

📈 Темы RLHF2 Рафаэль Рафайлов1 Stanford University1 Direct Preference Optimization1 Reward hacking1 DPO1 PPO1 Reward Hacking1 LLM1

📺 Материалы с участием

📉 Direct Preference Optimization: почему исследователи переходят на DPO

Stanford Online · 30.10.24 · 12,4 тыс. просм.

🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград

Stanford Online · 30.10.24 · 12 тыс. просм.