Retour aux projets

SWE-bench

En ligne

Le benchmark de référence pour évaluer les agents de codage IA

Informations du projet

Catégorie:Compétition
Publié:2024
Développeur:Princeton, CMU
Licence:Open Source
benchmarkevaluationcoding

À propos

Recueille de vrais problèmes d'ingénierie logicielle à partir de dépôts GitHub. Accepté en tant que présentation orale à l'ICLR 2024. Inclut plusieurs sous-ensembles : SWE-bench (complet), Lite, Verified (500 problèmes) et Pro (1 865 problèmes de niveau entreprise).

Désormais le benchmark standard de facto pour les agents de codage IA. Les meilleurs agents sont passés de 20 % à 74%+ entre 2024 et 2025.

Projets similaires