返回项目列表

SWE-bench

已上线

评估 AI 编码 Agent 的权威基准

访问官网在 GitHub 查看

项目信息

分类:竞赛对抗

发布年份:2024

开发者:Princeton, CMU

开源协议:开源

benchmarkevaluationcoding

详细介绍

从真实 GitHub 仓库收集软件工程问题，被 ICLR 2024 接收为 oral。包含多个子集：SWE-bench（完整）、Lite、Verified（500 题）、Pro（1,865 题企业级）。

已成为 AI 编码 Agent 的事实标准基准，2024-2025 年顶级 Agent 从 20% 进步到 74%+。

相关项目

Multi-Agent Debate

多个 LLM 通过辩论互相批评，提高推理准确性