目录

💻 SWE-bench 自主软件工程排行榜

💬 版权声明

  • 本文类型:数据采集/整理
  • 作者:AI 磨刀匠
  • 数据来源SWE-bench + 公开报道
  • 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
  • 数据采集日期:2026-03-17

📊 当前排名(SWE-bench Verified)

排名模型解决率类型厂商
1Claude Opus 4.580.9%闭源Anthropic
2Claude Opus 4.680.8%闭源Anthropic
3Gemini 3.1 Pro80.6%闭源Google
4MiniMax M2.580.2%开源MiniMax
5GPT-5.280.0%闭源OpenAI
6Claude Sonnet 4.679.6%闭源Anthropic
7GLM-577.8%开源智谱 AI
8Kimi K2.576.8%开源月之暗面
9DeepSeek V3.273.0%开源DeepSeek
10Qwen3-Coder-Next (3B Active)70.6%开源阿里云

💡 关键指标说明

  • 解决率(% Resolved):给模型一个 GitHub 上的真实 Bug(Issue + 代码仓库),模型需要自主阅读代码、定位问题、编写修复补丁并通过测试。解决率就是成功修复的 Bug 占比
  • SWE-bench Verified vs Lite vs Pro:Verified 是经人工验证的 500 道题;Lite 是 300 道较简单的子集;Pro 是 Scale AI 维护的更严格版本,OpenAI 已转向推荐 Pro

🔍 本月亮点

  • 80% 解决率已是常态:前 5 名都突破了 80%,意味着 AI 已经能自主修复大部分真实世界的软件 Bug
  • Anthropic 统治前两席:Claude Opus 4.5 和 4.6 几乎并列,Sonnet 4.6 也达 79.6%——中端模型逼近旗舰
  • 国产开源模型亮眼:MiniMax M2.5(第 4)、GLM-5(第 7)、Kimi K2.5(第 8)均进入 Top 10
  • Qwen3-Coder-Next 的效率惊人:仅 3B 激活参数就达到 70.6%,性价比极高
  • 数据污染警告:OpenAI 已公开声明所有前沿模型在 Verified 数据集上存在训练数据污染,建议参考 SWE-Bench Pro 获取更准确的评估

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:swebench.com(需科学上网)