Zurück zu Projekten

SWE-bench

Live

Der maßgebliche Benchmark zur Bewertung von KI-Coding-Agenten

Projektinformationen

Kategorie:Wettbewerb
Veröffentlicht:2024
Entwickler:Princeton, CMU
Lizenz:Open Source
benchmarkevaluationcoding

Über das Projekt

Sammelt reale Software-Engineering-Probleme aus GitHub-Repositories. Als Oral bei ICLR 2024 angenommen. Umfasst mehrere Teilmengen: SWE-bench (vollständig), Lite, Verified (500 Probleme) und Pro (1.865 Enterprise-Level-Probleme).

Jetzt der De-facto-Standardbenchmark für KI-Coding-Agenten. Top-Agenten verbesserten sich von 20 % auf 74 %+ zwischen 2024-2025.

Verwandte Projekte