返回项目列表

SWE-bench

已上线

评估 AI 编码 Agent 的权威基准

项目信息

分类:竞赛对抗
发布年份:2024
开发者:Princeton, CMU
开源协议:开源
benchmarkevaluationcoding

详细介绍

从真实 GitHub 仓库收集软件工程问题,被 ICLR 2024 接收为 oral。包含多个子集:SWE-bench(完整)、Lite、Verified(500 题)、Pro(1,865 题企业级)。

已成为 AI 编码 Agent 的事实标准基准,2024-2025 年顶级 Agent 从 20% 进步到 74%+。

相关项目