💬 版权声明
- 本文类型:原创/自写
- 作者:AI 磨刀匠
- 许可协议:CC BY 4.0(知识共享署名 4.0 国际许可协议)
🏆 为什么要看榜单?
选模型不靠广告,靠数据。
市面上大模型几十个,每家都说自己最强。普通人怎么判断?看榜单——就像买手机看跑分、买车看碰撞测试一样,大模型也有专业的评测体系。
但榜单不是万能的。看懂榜单比看排名更重要。
五大主流榜单速览
💡 一句话选择指南
- 想知道”大众觉得谁好用” → 看 Chatbot Arena
- 想知道”开源模型谁最强” → 看 Open LLM Leaderboard
- 想知道”谁真有实力(防作弊)” → 看 LiveBench
- 想知道”谁写代码最强” → 看 Aider Polyglot
- 想知道”专业场景下谁靠谱” → 看 SEAL
进阶:
- 想知道”谁能独立修 Bug 建项目” → 看 SWE-bench
- 想知道”谁调 API / 工具最强” → 看 BFCL
- 想知道”谁看图最准” → 看 Vision Arena
| 榜单 | 测什么 | 谁来评 | 数据集 | 官网 |
|---|---|---|---|---|
| Chatbot Arena | 综合对话 | 普通用户投票 | 投票数据公开 | lmarena.ai |
| Open LLM Leaderboard | 标准化基准 | 自动评测 | 完全公开 | HuggingFace |
| LiveBench | 高难度综合 | 自动评测(客观答案) | 每月更新 | livebench.ai |
| Aider Polyglot | 代码编辑 | 自动评测 | 公开 | aider.chat |
| SEAL | 多维度专业 | 专家人工 | 私有 | scale.com |
逐个拆解
1. Chatbot Arena(原 LMSYS)
怎么测的:你同时跟两个匿名模型聊天,选出你觉得更好的那个。系统根据所有用户的投票,算出 Elo 分数(类似国际象棋等级分)。
为什么重要:这是目前最大规模的众包人类评测,已积累 500 万+ 投票,覆盖 300+ 模型。它反映的不是实验室跑分,而是”真实用户在开放场景下觉得谁更好”。
注意事项:
- 前几名分差很小(2-3 分),排名波动不代表本质差距
- 用户可能偏爱”排版好看”或”回答更长”的模型,不等于能力更强
- 新模型标”Preliminary”时投票少,排名不稳定
- 有代码、数学、多语言等子榜单,不同维度排名可能完全不同
2. Open LLM Leaderboard(HuggingFace)
怎么测的:用 IFEval、BBH、MATH、GPQA、MMLU-PRO 等标准化基准,自动给开源模型跑分。
为什么重要:开源社区的”标尺”——只收录可下载、可复现的开源模型,能公平比较不同规模(1B~100B+)的模型。
注意事项:
- 只有开源模型,不含 GPT、Claude、Gemini 等闭源模型,不能跨阵营比较
- 跑分高不代表好用(“benchmark gaming”:模型可以针对测试集优化,实际体验打折)
- v1 和 v2 换了基准集,历史分数不能直接对比
3. LiveBench
怎么测的:18 个任务,覆盖数学、代码、推理、语言、指令遵循、数据分析。每道题有标准答案,纯客观评分。
为什么重要:它解决了一个大问题——防作弊。题目每月更新,基于最新的论文、新闻、电影简介等生成,模型无法通过训练数据”背答案”。
注意事项:
- 不同月份的分数不能横向比较(题目不一样)
- 难度很高,顶级模型准确率也低于 70%,别被低分吓到
- 偏学术导向,不直接反映日常聊天体验
4. Aider Polyglot
怎么测的:225 道编程题,覆盖 C++、Go、Java、JavaScript、Python、Rust 六种语言。模型需要在 Aider(AI 编程助手)环境中实际编写和编辑代码。
为什么重要:少数测试”实际代码编辑”(不只是生成)能力的榜单。多语言覆盖,还附带成本指标,能看性价比。
注意事项:
- 这是在 Aider 工具内的表现,换个编程环境结果可能不同
- “架构师+编辑器”双模型组合的成绩不能与单模型直接比
- 偏算法题,不完全代表日常开发场景
5. SEAL Leaderboards(Scale AI)
怎么测的:由 Scale AI 运营,使用私有数据集 + 人类专家评审。覆盖编程(SWE-Bench Pro)、指令遵循、工具使用、Agent 能力、对抗安全等维度。
为什么重要:题目不公开,模型厂商无法”刷分”。专家评审比普通用户投票更专业。是少数覆盖”安全”和”Agent 能力”维度的榜单。
注意事项:
- Scale AI 与多家模型厂商有商业合作,需注意潜在利益关联
- 私有数据集意味着外界无法独立复现验证
- 不同子榜单排名可能矛盾
常见误区
⚠️ 看榜单最容易犯的三个错误
误区一:跑分高 = 好用 跑分测的是”考试能力”,实际使用体验还受响应速度、价格、上下文长度、工具集成等因素影响。选模型要结合自己的实际场景。
误区二:排名不变 榜单每天都在更新。上个月第一名,这个月可能掉到第五。不要因为一次排名就锁死选择。
误区三:一个榜单说了算 每个榜单测的维度不同。一个模型在代码能力上排第一,在对话体验上可能排第十。交叉验证多个榜单,才能得到更全面的判断。
误区四:跑分一定真实 这是目前行业已经曝光的一个大坑——数据污染。已有数据公司被发现往测试集中”注入”特定数据,然后把这部分数据提供给大模型训练公司。模型在训练时”背”过这些答案,面对测试集自然表现很好,但换个场景就现原形。本质上就是提前拿到考题。这也是 LiveBench 每月更新题目的核心原因——老题目永远存在被污染的风险。看到一个模型跑分突然暴涨,先别高兴,多问一句:是真进步了,还是”背题”了?
怎么根据需求选模型?
| 你的需求 | 优先看哪个榜单 | 当前推荐(2026 年 3 月) |
|---|---|---|
| 日常聊天、写作 | Chatbot Arena | Claude Opus 4.6、Gemini 3.1 Pro |
| 写代码、改 Bug | Aider Polyglot | Grok 4、DeepSeek V3.2 |
| 开源模型自部署 | Open LLM Leaderboard | GLM-4.7、Qwen 3.5、Kimi K2.5 |
| 严肃学术/推理 | LiveBench | 交叉参考 Arena + LiveBench |
| 企业级安全合规 | SEAL | 看 SEAL 对抗鲁棒性子榜 |
ℹ️ 数据截至日期:2026 年 3 月 8 日 榜单数据随时变化,请以各榜单官网最新数据为准。本文旨在帮你”看懂”榜单,而非提供实时排名。
🔬 进阶:三个前沿方向的专项榜单
以下三个榜单偏专业,适合对代码工程、智能体、多模态有进一步需求的读者。 如果你目前只关心”哪个模型聊天/写东西最好”,上面五个已经完全够用了。
SWE-bench — 谁能独立修 Bug 建项目
官网:swebench.com
Aider 测的是”你帮我改这段代码”,SWE-bench 测的是”给你一个 GitHub 上的真实 Bug,你自己去读整个项目的代码并修好它”。
这是目前评估 AI 程序员(如 Devin、Claude Code 等)最严苛的行业标准。模型需要理解完整项目结构、定位问题、编写修复代码并通过测试——跟真实软件工程师的工作流程一模一样。
BFCL — 谁调 API / 工具最强
官网:gorilla.cs.berkeley.edu/leaderboard
全称 Berkeley Function Calling Leaderboard(伯克利函数调用排行榜)。
现在的大模型不仅要会聊天,还要会”干活”——调天气 API、操作数据库、控制外部软件。这个榜单专门测模型的 Function Calling(工具调用)能力,是评估 Agent(智能体)实力最权威的基准。
Vision Arena — 谁看图最准
官网:与 Chatbot Arena 同站(lmarena.ai,切换到 Vision 标签)
GPT-4o、Claude Sonnet 都具备很强的看图、读图表、甚至看 UI 界面写代码的能力。上面五个榜单全是纯文本评估,Vision Arena 补上了多模态这块拼图。评测方式跟 Chatbot Arena 一样——用户给两个匿名模型看同一张图,选出理解更准确的那个。
💬 信息来源