Р

Рафаэль Рафайлов

Исследователь в области искусственного интеллекта, соавтор метода Direct Preference Optimization.

2статьи
24 тыс.просмотров
2024период
1канал

💬 Заметные цитаты

«По мнению Рафаэля Рафайлова, взлом вознаграждения выражен в DPO (и его вариациях вроде IPO и SLIC) едва ли не сильнее, чем в PPO»
«Для меня это было своего рода сноской. Как мы заставили это работать лучше, мы просто сэмплировали больше ответов на каждый запрос.»
«Reward hacking кажется довольно заметным в DPO, и, на самом деле, может быть даже более заметным, чем в PPO.»

📺 Где появляется

📈 Темы RLHF2Рафаэль Рафайлов1Stanford University1Direct Preference Optimization1Reward hacking1DPO1PPO1Reward Hacking1LLM1

📺 Материалы с участием