Zurück zu Projekten
SWE-bench
LiveDer maßgebliche Benchmark zur Bewertung von KI-Coding-Agenten
Projektinformationen
Kategorie:Wettbewerb
Veröffentlicht:2024
Entwickler:Princeton, CMU
Lizenz:Open Source
benchmarkevaluationcoding
Über das Projekt
Sammelt reale Software-Engineering-Probleme aus GitHub-Repositories. Als Oral bei ICLR 2024 angenommen. Umfasst mehrere Teilmengen: SWE-bench (vollständig), Lite, Verified (500 Probleme) und Pro (1.865 Enterprise-Level-Probleme).
Jetzt der De-facto-Standardbenchmark für KI-Coding-Agenten. Top-Agenten verbesserten sich von 20 % auf 74 %+ zwischen 2024-2025.