SWE-bench

En ligne

Le benchmark de référence pour évaluer les agents de codage IA

Visiter le site Voir sur GitHub

Informations du projet

Catégorie:Compétition

Publié:2024

Développeur:Princeton, CMU

Licence:Open Source

benchmarkevaluationcoding

À propos

Recueille de vrais problèmes d'ingénierie logicielle à partir de dépôts GitHub. Accepté en tant que présentation orale à l'ICLR 2024. Inclut plusieurs sous-ensembles : SWE-bench (complet), Lite, Verified (500 problèmes) et Pro (1 865 problèmes de niveau entreprise).

Désormais le benchmark standard de facto pour les agents de codage IA. Les meilleurs agents sont passés de 20 % à 74%+ entre 2024 et 2025.

Projets similaires

Multi-Agent Debate

Plusieurs LLM débattent pour améliorer la précision du raisonnement