目录

💻 SWE-bench 自主软件工程排行榜

💬 版权声明

本文类型：数据采集/整理

作者：AI 磨刀匠

数据来源：SWE-bench + 公开报道

采集方式：使用 Claude Code 系统抓取并以文字/表格还原，可能存在误差，请以官网为准

数据采集日期：2026-03-17

📊 当前排名（SWE-bench Verified）

排名	模型	解决率	类型	厂商
1	Claude Opus 4.5	80.9%	闭源	Anthropic
2	Claude Opus 4.6	80.8%	闭源	Anthropic
3	Gemini 3.1 Pro	80.6%	闭源	Google
4	MiniMax M2.5	80.2%	开源	MiniMax
5	GPT-5.2	80.0%	闭源	OpenAI
6	Claude Sonnet 4.6	79.6%	闭源	Anthropic
7	GLM-5	77.8%	开源	智谱 AI
8	Kimi K2.5	76.8%	开源	月之暗面
9	DeepSeek V3.2	73.0%	开源	DeepSeek
10	Qwen3-Coder-Next (3B Active)	70.6%	开源	阿里云

💡 关键指标说明

解决率（% Resolved）：给模型一个 GitHub 上的真实 Bug（Issue + 代码仓库），模型需要自主阅读代码、定位问题、编写修复补丁并通过测试。解决率就是成功修复的 Bug 占比
SWE-bench Verified vs Lite vs Pro：Verified 是经人工验证的 500 道题；Lite 是 300 道较简单的子集；Pro 是 Scale AI 维护的更严格版本，OpenAI 已转向推荐 Pro

🔍 本月亮点

80% 解决率已是常态：前 5 名都突破了 80%，意味着 AI 已经能自主修复大部分真实世界的软件 Bug
Anthropic 统治前两席：Claude Opus 4.5 和 4.6 几乎并列，Sonnet 4.6 也达 79.6%——中端模型逼近旗舰
国产开源模型亮眼：MiniMax M2.5（第 4）、GLM-5（第 7）、Kimi K2.5（第 8）均进入 Top 10
Qwen3-Coder-Next 的效率惊人：仅 3B 激活参数就达到 70.6%，性价比极高
数据污染警告：OpenAI 已公开声明所有前沿模型在 Verified 数据集上存在训练数据污染，建议参考 SWE-Bench Pro 获取更准确的评估

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原，可能存在误差。有条件的读者建议直接访问官网查看最新数据。官网：swebench.com（需科学上网）