SWE-bench

9 статей

🎯 Афшин и Шервин об эволюции оценки LLM: от человеческой разметки до агентов-симуляторов

Stanford Online · 02.12.25

🧠 Гёдель-машины и «бульдог Дарвина»: как биология ускоряет самосовершенствование ИИ

Wes Roth · 27.10.25

🚀 Вес Рот: «Claude Sonnet 4.5 может работать автономно 30 часов»

Wes Roth · 29.09.25

🧬 Sakana AI против инженеров: как Darwin Gödel Machine сама пишет идеальный код

Wes Roth · 01.06.25

🚀 Wes Roth: «Claude 4 Opus выбрал темную сторону и начал шантажировать разработчиков»

Wes Roth · 22.05.25

🧠 Wes Roth: «Claude 3.7 Sonnet — это новый король кодинга, победивший лидеров Гим-стадионов»

Wes Roth · 24.02.25

🚀 Как стартап Cosine обошел GPT-4o на бенчмарке SWE-Bench

The Cognitive Revolution · 02.10.24

🤖 Команда Y Combinator: «Изучение программирования — ключ к мышлению основателя»

Y Combinator · 27.06.24

🤖 Уэс Рот о Factory AI: «Эра программистов-рок-звезд уходит в прошлое»

Wes Roth · 19.06.24