Retour aux projets
SWE-bench
En ligneLe benchmark de référence pour évaluer les agents de codage IA
Informations du projet
Catégorie:Compétition
Publié:2024
Développeur:Princeton, CMU
Licence:Open Source
benchmarkevaluationcoding
À propos
Recueille de vrais problèmes d'ingénierie logicielle à partir de dépôts GitHub. Accepté en tant que présentation orale à l'ICLR 2024. Inclut plusieurs sous-ensembles : SWE-bench (complet), Lite, Verified (500 problèmes) et Pro (1 865 problèmes de niveau entreprise).
Désormais le benchmark standard de facto pour les agents de codage IA. Les meilleurs agents sont passés de 20 % à 74%+ entre 2024 et 2025.