Policy Gradients

2 статьи

🔄 Стэнфордский курс CS224R: математический вывод градиентов политики в RL

Stanford Online · 08.12.25

🤖 Градиент стратегии в Reinforcement Learning: от REINFORCE до Importance Sampling

Stanford Online · 08.12.25