Э

Эрик Митчелл

Докторант Стэнфордского университета, соавтор исследования по оптимизации человеческих предпочтений.

2статьи
24 тыс.просмотров
2024период
1канал

📺 Где появляется

📈 Темы RLHF2Рафаэль Рафайлов1Stanford University1Direct Preference Optimization1Reward hacking1DPO1PPO1Reward Hacking1LLM1

📺 Материалы с участием