返回项目列表
SWE-bench
已上线评估 AI 编码 Agent 的权威基准
项目信息
分类:竞赛对抗
发布年份:2024
开发者:Princeton, CMU
开源协议:开源
benchmarkevaluationcoding
详细介绍
从真实 GitHub 仓库收集软件工程问题,被 ICLR 2024 接收为 oral。包含多个子集:SWE-bench(完整)、Lite、Verified(500 题)、Pro(1,865 题企业级)。
已成为 AI 编码 Agent 的事实标准基准,2024-2025 年顶级 Agent 从 20% 进步到 74%+。