PPO

9 статей

⚖ Stanford CS224R: PPO и SAC как стандарты обучения с подкреплением

Stanford Online · 08.12.25 · 7,5 тыс. просм.

🛠 Тюнинг LLM: как методы PPO и DPO превращают нейросети из автодополнителей в полезных помощников

Stanford Online · 14.11.25 · 41,1 тыс. просм.

🎯 Стэнфорд: «Ваша языковая модель — это на самом деле скрытая модель вознаграждения»

Stanford Online · 14.11.25 · 41,1 тыс. просм.

🧬 Нейтан Ламберт о жизни после DPO: почему PPO все еще лучше, но сложнее

Stanford Online · 04.03.25 · 13,1 тыс. просм.

📉 Direct Preference Optimization: почему исследователи переходят на DPO

Stanford Online · 30.10.24 · 12,4 тыс. просм.

🛡 Стэнфорд о PPO: «Почему это самый полезный метод в RL»

Stanford Online · 30.10.24 · 11,4 тыс. просм.

🛠 От PPO до Dagger: современные методы обучения агентов

Stanford Online · 30.10.24 · 11,4 тыс. просм.

🔄 Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind

Yannic Kilcher · 03.09.23 · 34,5 тыс. просм.

📊 Исследование Google Brain: как правильно настроить on-policy RL-агента

Yannic Kilcher · 20.08.20 · 9,5 тыс. просм.