Policy Gradient

6 статей

🧠 Лекция Stanford CS221: От табличных методов к Actor-Critic

Stanford Online · 09.03

🔄 Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»

Stanford Online · 08.12.25

Механика обучения моделей: лектор Стэнфорда о GRPO

Stanford Online · 08.07.25

🌡 Стэнфорд: три способа научить ИИ принимать решения через оценку градиента

Stanford Online · 21.11.24

🌡 Оптимизация стратегий в RL: три метода оценки градиента от Stanford Online

Stanford Online · 21.11.24

🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»

Stanford Online · 30.10.24