RDLY
.ru
Тренды
Статьи
Темы
Policy Gradient
6 статей
1ч 13м
🧠 Лекция Stanford CS221: От табличных методов к Actor-Critic
Stanford Online · 09.03
1ч 03м
🔄 Stanford Online: «Методы Actor-Critic — база для обучения LLM и роботов»
Stanford Online · 08.12.25
1ч 16м
Механика обучения моделей: лектор Стэнфорда о GRPO
Stanford Online · 08.07.25
45 мин
🌡 Стэнфорд: три способа научить ИИ принимать решения через оценку градиента
Stanford Online · 21.11.24
45 мин
🌡 Оптимизация стратегий в RL: три метода оценки градиента от Stanford Online
Stanford Online · 21.11.24
1ч 19м
🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»
Stanford Online · 30.10.24