MMLU

3 статьи

🎯 Афшин и Шервин об эволюции оценки LLM: от человеческой разметки до агентов-симуляторов

Stanford Online · 02.12.25 · 53,1 тыс. просм.

📉 Кризис оценки ИИ: почему современные бенчмарки лгут?

Stanford Online · 04.06.25 · 22,2 тыс. просм.

🧬 Последний экзамен человечества: Дэн Хендрикс о безопасности сверхразума

The Cognitive Revolution · 19.10.24 · 1,2 тыс. просм.