目录
💻 SWE-bench 自主软件工程排行榜
💬 版权声明
- 本文类型:数据采集/整理
- 作者:AI 磨刀匠
- 数据来源:SWE-bench + 公开报道
- 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
- 数据采集日期:2026-03-17
📊 当前排名(SWE-bench Verified)
| 排名 | 模型 | 解决率 | 类型 | 厂商 |
|---|---|---|---|---|
| 1 | Claude Opus 4.5 | 80.9% | 闭源 | Anthropic |
| 2 | Claude Opus 4.6 | 80.8% | 闭源 | Anthropic |
| 3 | Gemini 3.1 Pro | 80.6% | 闭源 | |
| 4 | MiniMax M2.5 | 80.2% | 开源 | MiniMax |
| 5 | GPT-5.2 | 80.0% | 闭源 | OpenAI |
| 6 | Claude Sonnet 4.6 | 79.6% | 闭源 | Anthropic |
| 7 | GLM-5 | 77.8% | 开源 | 智谱 AI |
| 8 | Kimi K2.5 | 76.8% | 开源 | 月之暗面 |
| 9 | DeepSeek V3.2 | 73.0% | 开源 | DeepSeek |
| 10 | Qwen3-Coder-Next (3B Active) | 70.6% | 开源 | 阿里云 |
💡 关键指标说明
- 解决率(% Resolved):给模型一个 GitHub 上的真实 Bug(Issue + 代码仓库),模型需要自主阅读代码、定位问题、编写修复补丁并通过测试。解决率就是成功修复的 Bug 占比
- SWE-bench Verified vs Lite vs Pro:Verified 是经人工验证的 500 道题;Lite 是 300 道较简单的子集;Pro 是 Scale AI 维护的更严格版本,OpenAI 已转向推荐 Pro
🔍 本月亮点
- 80% 解决率已是常态:前 5 名都突破了 80%,意味着 AI 已经能自主修复大部分真实世界的软件 Bug
- Anthropic 统治前两席:Claude Opus 4.5 和 4.6 几乎并列,Sonnet 4.6 也达 79.6%——中端模型逼近旗舰
- 国产开源模型亮眼:MiniMax M2.5(第 4)、GLM-5(第 7)、Kimi K2.5(第 8)均进入 Top 10
- Qwen3-Coder-Next 的效率惊人:仅 3B 激活参数就达到 70.6%,性价比极高
- 数据污染警告:OpenAI 已公开声明所有前沿模型在 Verified 数据集上存在训练数据污染,建议参考 SWE-Bench Pro 获取更准确的评估
⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:swebench.com(需科学上网)