大模型天梯榜扫盲：看懂排名，选对模型

💬 版权声明

本文类型：原创/自写

作者：AI 磨刀匠

许可协议：CC BY 4.0（知识共享署名 4.0 国际许可协议）

🏆 为什么要看榜单？

选模型不靠广告，靠数据。

市面上大模型几十个，每家都说自己最强。普通人怎么判断？看榜单——就像买手机看跑分、买车看碰撞测试一样，大模型也有专业的评测体系。

但榜单不是万能的。看懂榜单比看排名更重要。

五大主流榜单速览

💡 一句话选择指南

想知道”大众觉得谁好用” → 看 Chatbot Arena

想知道”开源模型谁最强” → 看 Open LLM Leaderboard

想知道”谁真有实力（防作弊）” → 看 LiveBench

想知道”谁写代码最强” → 看 Aider Polyglot

想知道”专业场景下谁靠谱” → 看 SEAL

进阶：

想知道”谁能独立修 Bug 建项目” → 看 SWE-bench

想知道”谁调 API / 工具最强” → 看 BFCL

想知道”谁看图最准” → 看 Vision Arena

榜单	测什么	谁来评	数据集	官网
Chatbot Arena	综合对话	普通用户投票	投票数据公开	lmarena.ai
Open LLM Leaderboard	标准化基准	自动评测	完全公开	HuggingFace
LiveBench	高难度综合	自动评测（客观答案）	每月更新	livebench.ai
Aider Polyglot	代码编辑	自动评测	公开	aider.chat
SEAL	多维度专业	专家人工	私有	scale.com

逐个拆解

1. Chatbot Arena（原 LMSYS）

怎么测的：你同时跟两个匿名模型聊天，选出你觉得更好的那个。系统根据所有用户的投票，算出 Elo 分数（类似国际象棋等级分）。

为什么重要：这是目前最大规模的众包人类评测，已积累 500 万+ 投票，覆盖 300+ 模型。它反映的不是实验室跑分，而是”真实用户在开放场景下觉得谁更好”。

注意事项：

前几名分差很小（2-3 分），排名波动不代表本质差距
用户可能偏爱”排版好看”或”回答更长”的模型，不等于能力更强
新模型标”Preliminary”时投票少，排名不稳定
有代码、数学、多语言等子榜单，不同维度排名可能完全不同

2. Open LLM Leaderboard（HuggingFace）

怎么测的：用 IFEval、BBH、MATH、GPQA、MMLU-PRO 等标准化基准，自动给开源模型跑分。

为什么重要：开源社区的”标尺”——只收录可下载、可复现的开源模型，能公平比较不同规模（1B~100B+）的模型。

注意事项：

只有开源模型，不含 GPT、Claude、Gemini 等闭源模型，不能跨阵营比较
跑分高不代表好用（“benchmark gaming”：模型可以针对测试集优化，实际体验打折）
v1 和 v2 换了基准集，历史分数不能直接对比

3. LiveBench

怎么测的：18 个任务，覆盖数学、代码、推理、语言、指令遵循、数据分析。每道题有标准答案，纯客观评分。

为什么重要：它解决了一个大问题——防作弊。题目每月更新，基于最新的论文、新闻、电影简介等生成，模型无法通过训练数据”背答案”。

注意事项：

不同月份的分数不能横向比较（题目不一样）
难度很高，顶级模型准确率也低于 70%，别被低分吓到
偏学术导向，不直接反映日常聊天体验

4. Aider Polyglot

怎么测的：225 道编程题，覆盖 C++、Go、Java、JavaScript、Python、Rust 六种语言。模型需要在 Aider（AI 编程助手）环境中实际编写和编辑代码。

为什么重要：少数测试”实际代码编辑”（不只是生成）能力的榜单。多语言覆盖，还附带成本指标，能看性价比。

注意事项：

这是在 Aider 工具内的表现，换个编程环境结果可能不同
“架构师+编辑器”双模型组合的成绩不能与单模型直接比
偏算法题，不完全代表日常开发场景

5. SEAL Leaderboards（Scale AI）

怎么测的：由 Scale AI 运营，使用私有数据集 + 人类专家评审。覆盖编程（SWE-Bench Pro）、指令遵循、工具使用、Agent 能力、对抗安全等维度。

为什么重要：题目不公开，模型厂商无法”刷分”。专家评审比普通用户投票更专业。是少数覆盖”安全”和”Agent 能力”维度的榜单。

注意事项：

Scale AI 与多家模型厂商有商业合作，需注意潜在利益关联
私有数据集意味着外界无法独立复现验证
不同子榜单排名可能矛盾

常见误区

⚠️ 看榜单最容易犯的三个错误

误区一：跑分高 = 好用 跑分测的是”考试能力”，实际使用体验还受响应速度、价格、上下文长度、工具集成等因素影响。选模型要结合自己的实际场景。

误区二：排名不变 榜单每天都在更新。上个月第一名，这个月可能掉到第五。不要因为一次排名就锁死选择。

误区三：一个榜单说了算 每个榜单测的维度不同。一个模型在代码能力上排第一，在对话体验上可能排第十。交叉验证多个榜单，才能得到更全面的判断。

误区四：跑分一定真实 这是目前行业已经曝光的一个大坑——数据污染。已有数据公司被发现往测试集中”注入”特定数据，然后把这部分数据提供给大模型训练公司。模型在训练时”背”过这些答案，面对测试集自然表现很好，但换个场景就现原形。本质上就是提前拿到考题。这也是 LiveBench 每月更新题目的核心原因——老题目永远存在被污染的风险。看到一个模型跑分突然暴涨，先别高兴，多问一句：是真进步了，还是”背题”了？

怎么根据需求选模型？

你的需求	优先看哪个榜单	当前推荐（2026 年 3 月）
日常聊天、写作	Chatbot Arena	Claude Opus 4.6、Gemini 3.1 Pro
写代码、改 Bug	Aider Polyglot	Grok 4、DeepSeek V3.2
开源模型自部署	Open LLM Leaderboard	GLM-4.7、Qwen 3.5、Kimi K2.5
严肃学术/推理	LiveBench	交叉参考 Arena + LiveBench
企业级安全合规	SEAL	看 SEAL 对抗鲁棒性子榜

ℹ️ 数据截至日期：2026 年 3 月 8 日 榜单数据随时变化，请以各榜单官网最新数据为准。本文旨在帮你”看懂”榜单，而非提供实时排名。

🔬 进阶：三个前沿方向的专项榜单

以下三个榜单偏专业，适合对代码工程、智能体、多模态有进一步需求的读者。如果你目前只关心”哪个模型聊天/写东西最好”，上面五个已经完全够用了。

SWE-bench — 谁能独立修 Bug 建项目

官网：swebench.com

Aider 测的是”你帮我改这段代码”，SWE-bench 测的是”给你一个 GitHub 上的真实 Bug，你自己去读整个项目的代码并修好它”。

这是目前评估 AI 程序员（如 Devin、Claude Code 等）最严苛的行业标准。模型需要理解完整项目结构、定位问题、编写修复代码并通过测试——跟真实软件工程师的工作流程一模一样。

BFCL — 谁调 API / 工具最强

官网：gorilla.cs.berkeley.edu/leaderboard

全称 Berkeley Function Calling Leaderboard（伯克利函数调用排行榜）。

现在的大模型不仅要会聊天，还要会”干活”——调天气 API、操作数据库、控制外部软件。这个榜单专门测模型的 Function Calling（工具调用）能力，是评估 Agent（智能体）实力最权威的基准。

Vision Arena — 谁看图最准

官网：与 Chatbot Arena 同站（lmarena.ai，切换到 Vision 标签）

GPT-4o、Claude Sonnet 都具备很强的看图、读图表、甚至看 UI 界面写代码的能力。上面五个榜单全是纯文本评估，Vision Arena 补上了多模态这块拼图。评测方式跟 Chatbot Arena 一样——用户给两个匿名模型看同一张图，选出理解更准确的那个。

💬 信息来源

Chatbot Arena (LMArena)

Open LLM Leaderboard (HuggingFace)

LiveBench

Aider LLM Leaderboards

SEAL Leaderboards (Scale AI)

SWE-bench

Berkeley Function Calling Leaderboard