TD-learning

2 статьи

🤖 Теория игр и обучение с подкреплением: от алгоритма TD-learning до равновесия Нэша

Stanford Online · 09.03 · 506 просм.

Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»

Stanford Online · 08.12.25 · 3,9 тыс. просм.