GRPO

7 статей

🛠 Кайл Корбитт из CoreWeave: «Мы уже находимся в петле рекурсивного самосовершенствования ИИ»

The Cognitive Revolution · 01.05

🚀 Стэнфорд CME295: Итоги 2025 года в мире трансформеров и диффузионных моделей

Stanford Online · 09.12.25

🔄 Будущее LLM в 2025 году: от авторегрессии к диффузии и аналоговым чипам

Stanford Online · 09.12.25

🧠 DeepSeek R1 против OpenAI o1: как алгоритм GRPO изменил правила игры в ИИ

Stanford Online · 14.11.25

🧠 Стэнфорд CME295: Как алгоритм GRPO и DeepSeek R1 изменили логику нейросетей

Stanford Online · 14.11.25

Механика обучения моделей: лектор Стэнфорда о GRPO

Stanford Online · 08.07.25

🚀 Stanford CS336: секреты обучения reasoning-моделей DeepSeek-R1, Kimi и Qwen

Stanford Online · 01.07.25