プロジェクト一覧に戻る

SWE-bench

稼働中

AIコーディングエージェント評価の権威あるベンチマーク

プロジェクト情報

カテゴリー:コンペティション
リリース年:2024
開発者:Princeton, CMU
ライセンス:オープンソース
benchmarkevaluationcoding

詳細紹介

GitHubリポジトリから実際のソフトウェアエンジニアリング問題を収集しています。ICLR 2024でoral発表として採択されました。複数のサブセットを含みます:SWE-bench(フル)、Lite、Verified(500問題)、Pro(1,865のエンタープライズレベル問題)。

現在、AIコーディングエージェントの事実上の標準ベンチマークです。トップエージェントの成績は2024年〜2025年の間に20%から74%以上に向上しました。

関連プロジェクト