SWE-bench

Live

Der maßgebliche Benchmark zur Bewertung von KI-Coding-Agenten

Website besuchen Auf GitHub ansehen

Projektinformationen

Kategorie:Wettbewerb

Veröffentlicht:2024

Entwickler:Princeton, CMU

Lizenz:Open Source

benchmarkevaluationcoding

Über das Projekt

Sammelt reale Software-Engineering-Probleme aus GitHub-Repositories. Als Oral bei ICLR 2024 angenommen. Umfasst mehrere Teilmengen: SWE-bench (vollständig), Lite, Verified (500 Probleme) und Pro (1.865 Enterprise-Level-Probleme).

Jetzt der De-facto-Standardbenchmark für KI-Coding-Agenten. Top-Agenten verbesserten sich von 20 % auf 74 %+ zwischen 2024-2025.

SWE-bench

Projektinformationen

Über das Projekt

Verwandte Projekte

Multi-Agent Debate