MMLU

3 статьи

🎯 Афшин и Шервин об эволюции оценки LLM: от человеческой разметки до агентов-симуляторов

Stanford Online · 02.12.25

📉 Кризис оценки ИИ: почему современные бенчмарки лгут?

Stanford Online · 04.06.25

🧬 Последний экзамен человечества: Дэн Хендрикс о безопасности сверхразума

The Cognitive Revolution · 19.10.24