SWE-bench
Définition : SWE-bench est un benchmark qui évalue la capacité d'un modèle à résoudre de vrais problèmes de génie logiciel, tirés de dépôts open source.
Le modèle doit produire un correctif qui passe les tests du projet, ce qui mesure des compétences de code réalistes. Il sert souvent à comparer les modèles orientés développement.