RDLY
.ru
Тренды
Статьи
Темы
Люди
Р
Рафаэль Рафайлов
Исследователь в области искусственного интеллекта, соавтор метода Direct Preference Optimization.
2
статьи
24 тыс.
просмотров
2024
период
1
канал
💬 Заметные цитаты
«По мнению Рафаэля Рафайлова, взлом вознаграждения выражен в DPO (и его вариациях вроде IPO и SLIC) едва ли не сильнее, чем в PPO»
→
Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
«Для меня это было своего рода сноской. Как мы заставили это работать лучше, мы просто сэмплировали больше ответов на каждый запрос.»
→
Direct Preference Optimization: почему исследователи переходят на DPO
«Reward hacking кажется довольно заметным в DPO, и, на самом деле, может быть даже более заметным, чем в PPO.»
→
Direct Preference Optimization: почему исследователи переходят на DPO
👥 Часто вместе с
Арчит Шарма
2
Эрик Митчелл
2
Эмма Бранскилл
1
Эмма Бруско
1
📺 Где появляется
Stanford Online
2
🧠 Ключевые концепции
KL-дивергенция
2
Direct Preference Optimization (DPO)
1
Reward Hacking
1
RLHF
1
DPO
1
PPO
1
Reward hacking
1
📈 Темы
RLHF
2
Рафаэль Рафайлов
1
Stanford University
1
Direct Preference Optimization
1
Reward hacking
1
DPO
1
PPO
1
Reward Hacking
1
LLM
1
📺 Материалы с участием
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24 · 12,4 тыс. просм.
1ч 18м
🎓 Как аналитический метод DPO изменил выравнивание LLM и столкнулся со взломом наград
Stanford Online · 30.10.24 · 12 тыс. просм.