SWE-bench

GitHubリポジトリから実際のソフトウェアエンジニアリング問題を収集しています。ICLR 2024でoral発表として採択されました。複数のサブセットを含みます：SWE-bench（フル）、Lite、Verified（500問題）、Pro（1,865のエンタープライズレベル問題）。

現在、AIコーディングエージェントの事実上の標準ベンチマークです。トップエージェントの成績は2024年〜2025年の間に20%から74%以上に向上しました。