RDLY
.ru
Тренды
Статьи
Темы
Stanford CS224R
7 статей
1ч 09м
🧠 Как Meta-RL позволяет агентам адаптироваться к новым задачам „на лету“
Stanford Online · 08.12.25
50 мин
Аникайт из Стэнфорда: «Почему ваше Q-обучение нестабильно?»
Stanford Online · 08.12.25
1ч 05м
🔄 Лекция Стэнфорда о Reward Learning: как научить искусственный интеллект понимать человеческие цели
Stanford Online · 08.12.25
1ч 02м
🚀 Преподаватель Стэнфорда о методах обучения языковых моделей: от RLHF к DPO
Stanford Online · 08.12.25
1ч 09м
⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением
Stanford Online · 08.12.25
1ч 02м
🤖 Градиент стратегии в Reinforcement Learning: от REINFORCE до Importance Sampling
Stanford Online · 08.12.25
49 мин
⚖ Лекция в Стэнфорде: развитие интеллекта роботов через RL
Stanford Online · 08.12.25