目录

💻 Aider Polyglot 代码编辑排行榜

💬 版权声明

  • 本文类型:数据采集/整理
  • 作者:AI 磨刀匠
  • 数据来源Aider LLM Leaderboards
  • 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
  • 数据采集日期:2026-03-17

📊 当前排名(Polyglot 多语言代码编辑榜)

排名模型正确率格式正确率厂商
1GPT-5 (High)88.0%91.6%OpenAI
2GPT-5 (Medium)86.7%88.4%OpenAI
3o3-pro (High)84.9%97.8%OpenAI
4Gemini 2.5 Pro Preview 06-05 (32K Think)83.1%99.6%Google
5GPT-5 (Low)81.3%86.7%OpenAI
6o3 (High)81.3%94.7%OpenAI
7Grok 4 (High)79.6%97.3%xAI
8Gemini 2.5 Pro Preview 06-0579.1%100.0%Google
9o3 (High) + GPT-4.1(架构师模式)78.2%100.0%OpenAI
10o376.9%93.8%OpenAI
11Gemini 2.5 Pro Preview 05-0676.9%97.3%Google
12DeepSeek V3.2 Exp (Reasoner)74.2%97.3%DeepSeek
13Gemini 2.5 Pro Preview 03-2572.9%92.4%Google
14Claude Opus 4 (32K Thinking)72.0%97.3%Anthropic
15o4-mini (High)72.0%90.7%OpenAI
16DeepSeek R1 (0528)71.4%94.6%DeepSeek
17Claude Opus 4 (No Think)70.7%98.7%Anthropic
18DeepSeek V3.2 Exp (Chat)70.2%98.2%DeepSeek
19Claude 3.7 Sonnet (32K Thinking)64.9%97.8%Anthropic
20DeepSeek R1 + Claude 3.5 Sonnet(架构师模式)64.0%100.0%DeepSeek + Anthropic

💡 关键指标说明

  • 正确率(Percent Correct):模型在 225 道多语言编程题(C++、Go、Java、JavaScript、Python、Rust)上实际通过测试的比例。这是核心指标
  • 格式正确率(Percent Using Correct Edit Format):模型输出是否符合 Aider 要求的代码编辑格式(diff 格式)。接近 100% 说明模型”听话”,能配合工具使用
  • 架构师模式(Architect):用一个模型思考方案、另一个模型写代码的双模型组合

🔍 本月亮点

  • OpenAI GPT-5 系列屠榜:Top 6 占了 5 席,GPT-5 (High) 以 88.0% 正确率遥遥领先
  • Google Gemini 2.5 Pro 紧追:多个版本出现在 Top 13,且格式正确率接近 100%
  • DeepSeek 表现强劲:V3.2 和 R1 多个变体进入 Top 20,国产开源模型的代码能力已达第一梯队
  • Anthropic Claude 在中游:Opus 4 约 70-72%,Sonnet 约 65%,在代码编辑场景不是最强项
  • 双模型组合有价值:o3 + GPT-4.1 的架构师模式格式正确率达 100%,但正确率不一定更高

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:aider.chat/docs/leaderboards(需科学上网)