PPO

9 статей

1ч 09м
⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением
Stanford Online · 08.12.25 · 7,5 тыс. просм.
1ч 47м
🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников
Stanford Online · 14.11.25 · 41,1 тыс. просм.
1ч 47м
🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»
Stanford Online · 14.11.25 · 41,1 тыс. просм.
1ч 08м
🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее
Stanford Online · 04.03.25 · 13,1 тыс. просм.
1ч 18м
📉 Direct Preference Optimization: почему исследователи переходят на DPO
Stanford Online · 30.10.24 · 12,4 тыс. просм.
1ч 19м
🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»
Stanford Online · 30.10.24 · 11,4 тыс. просм.
1ч 18м
🛠 От PPO до Dagger: современные методы обучения агентов
Stanford Online · 30.10.24 · 11,4 тыс. просм.
53 мин
🔄 Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind
Yannic Kilcher · 03.09.23 · 34,5 тыс. просм.
38 мин
📊 Исследование Google Brain: как правильно настроить on-policy RL-агента
Yannic Kilcher · 20.08.20 · 9,5 тыс. просм.