プロジェクト一覧に戻る
SWE-bench
稼働中AIコーディングエージェント評価の権威あるベンチマーク
プロジェクト情報
カテゴリー:コンペティション
リリース年:2024
開発者:Princeton, CMU
ライセンス:オープンソース
benchmarkevaluationcoding
詳細紹介
GitHubリポジトリから実際のソフトウェアエンジニアリング問題を収集しています。ICLR 2024でoral発表として採択されました。複数のサブセットを含みます:SWE-bench(フル)、Lite、Verified(500問題)、Pro(1,865のエンタープライズレベル問題)。
現在、AIコーディングエージェントの事実上の標準ベンチマークです。トップエージェントの成績は2024年〜2025年の間に20%から74%以上に向上しました。