Рафаэль Рафайлов

Исследователь в области искусственного интеллекта, соавтор метода Direct Preference Optimization.

2статьи

24 тыс.просмотров

2024период

1канал

💬 Заметные цитаты

«По мнению Рафаэля Рафайлова, взлом вознаграждения выражен в DPO (и его вариациях вроде IPO и SLIC) едва ли не сильнее, чем в PPO»

«Для меня это было своего рода сноской. Как мы заставили это работать лучше, мы просто сэмплировали больше ответов на каждый запрос.»

«Reward hacking кажется довольно заметным в DPO, и, на самом деле, может быть даже более заметным, чем в PPO.»