目录
💻 Aider Polyglot 代码编辑排行榜
💬 版权声明
- 本文类型:数据采集/整理
- 作者:AI 磨刀匠
- 数据来源:Aider LLM Leaderboards
- 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
- 数据采集日期:2026-03-17
📊 当前排名(Polyglot 多语言代码编辑榜)
| 排名 | 模型 | 正确率 | 格式正确率 | 厂商 |
|---|---|---|---|---|
| 1 | GPT-5 (High) | 88.0% | 91.6% | OpenAI |
| 2 | GPT-5 (Medium) | 86.7% | 88.4% | OpenAI |
| 3 | o3-pro (High) | 84.9% | 97.8% | OpenAI |
| 4 | Gemini 2.5 Pro Preview 06-05 (32K Think) | 83.1% | 99.6% | |
| 5 | GPT-5 (Low) | 81.3% | 86.7% | OpenAI |
| 6 | o3 (High) | 81.3% | 94.7% | OpenAI |
| 7 | Grok 4 (High) | 79.6% | 97.3% | xAI |
| 8 | Gemini 2.5 Pro Preview 06-05 | 79.1% | 100.0% | |
| 9 | o3 (High) + GPT-4.1(架构师模式) | 78.2% | 100.0% | OpenAI |
| 10 | o3 | 76.9% | 93.8% | OpenAI |
| 11 | Gemini 2.5 Pro Preview 05-06 | 76.9% | 97.3% | |
| 12 | DeepSeek V3.2 Exp (Reasoner) | 74.2% | 97.3% | DeepSeek |
| 13 | Gemini 2.5 Pro Preview 03-25 | 72.9% | 92.4% | |
| 14 | Claude Opus 4 (32K Thinking) | 72.0% | 97.3% | Anthropic |
| 15 | o4-mini (High) | 72.0% | 90.7% | OpenAI |
| 16 | DeepSeek R1 (0528) | 71.4% | 94.6% | DeepSeek |
| 17 | Claude Opus 4 (No Think) | 70.7% | 98.7% | Anthropic |
| 18 | DeepSeek V3.2 Exp (Chat) | 70.2% | 98.2% | DeepSeek |
| 19 | Claude 3.7 Sonnet (32K Thinking) | 64.9% | 97.8% | Anthropic |
| 20 | DeepSeek R1 + Claude 3.5 Sonnet(架构师模式) | 64.0% | 100.0% | DeepSeek + Anthropic |
💡 关键指标说明
- 正确率(Percent Correct):模型在 225 道多语言编程题(C++、Go、Java、JavaScript、Python、Rust)上实际通过测试的比例。这是核心指标
- 格式正确率(Percent Using Correct Edit Format):模型输出是否符合 Aider 要求的代码编辑格式(diff 格式)。接近 100% 说明模型”听话”,能配合工具使用
- 架构师模式(Architect):用一个模型思考方案、另一个模型写代码的双模型组合
🔍 本月亮点
- OpenAI GPT-5 系列屠榜:Top 6 占了 5 席,GPT-5 (High) 以 88.0% 正确率遥遥领先
- Google Gemini 2.5 Pro 紧追:多个版本出现在 Top 13,且格式正确率接近 100%
- DeepSeek 表现强劲:V3.2 和 R1 多个变体进入 Top 20,国产开源模型的代码能力已达第一梯队
- Anthropic Claude 在中游:Opus 4 约 70-72%,Sonnet 约 65%,在代码编辑场景不是最强项
- 双模型组合有价值:o3 + GPT-4.1 的架构师模式格式正确率达 100%,但正确率不一定更高
⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:aider.chat/docs/leaderboards(需科学上网)