💬 版权声明

  • 本文类型:原创/自写
  • 作者:AI 磨刀匠
  • 许可协议:CC BY 4.0(知识共享署名 4.0 国际许可协议)

🏆 为什么要看榜单?

选模型不靠广告,靠数据。

市面上大模型几十个,每家都说自己最强。普通人怎么判断?看榜单——就像买手机看跑分、买车看碰撞测试一样,大模型也有专业的评测体系。

但榜单不是万能的。看懂榜单比看排名更重要。


五大主流榜单速览

💡 一句话选择指南

  • 想知道”大众觉得谁好用” → 看 Chatbot Arena
  • 想知道”开源模型谁最强” → 看 Open LLM Leaderboard
  • 想知道”谁真有实力(防作弊)” → 看 LiveBench
  • 想知道”谁写代码最强” → 看 Aider Polyglot
  • 想知道”专业场景下谁靠谱” → 看 SEAL

进阶:

  • 想知道”谁能独立修 Bug 建项目” → 看 SWE-bench
  • 想知道”谁调 API / 工具最强” → 看 BFCL
  • 想知道”谁看图最准” → 看 Vision Arena
榜单测什么谁来评数据集官网
Chatbot Arena综合对话普通用户投票投票数据公开lmarena.ai
Open LLM Leaderboard标准化基准自动评测完全公开HuggingFace
LiveBench高难度综合自动评测(客观答案)每月更新livebench.ai
Aider Polyglot代码编辑自动评测公开aider.chat
SEAL多维度专业专家人工私有scale.com

逐个拆解

1. Chatbot Arena(原 LMSYS)

怎么测的:你同时跟两个匿名模型聊天,选出你觉得更好的那个。系统根据所有用户的投票,算出 Elo 分数(类似国际象棋等级分)。

为什么重要:这是目前最大规模的众包人类评测,已积累 500 万+ 投票,覆盖 300+ 模型。它反映的不是实验室跑分,而是”真实用户在开放场景下觉得谁更好”。

注意事项

  • 前几名分差很小(2-3 分),排名波动不代表本质差距
  • 用户可能偏爱”排版好看”或”回答更长”的模型,不等于能力更强
  • 新模型标”Preliminary”时投票少,排名不稳定
  • 有代码、数学、多语言等子榜单,不同维度排名可能完全不同

2. Open LLM Leaderboard(HuggingFace)

怎么测的:用 IFEval、BBH、MATH、GPQA、MMLU-PRO 等标准化基准,自动给开源模型跑分。

为什么重要:开源社区的”标尺”——只收录可下载、可复现的开源模型,能公平比较不同规模(1B~100B+)的模型。

注意事项

  • 只有开源模型,不含 GPT、Claude、Gemini 等闭源模型,不能跨阵营比较
  • 跑分高不代表好用(“benchmark gaming”:模型可以针对测试集优化,实际体验打折)
  • v1 和 v2 换了基准集,历史分数不能直接对比

3. LiveBench

怎么测的:18 个任务,覆盖数学、代码、推理、语言、指令遵循、数据分析。每道题有标准答案,纯客观评分。

为什么重要:它解决了一个大问题——防作弊。题目每月更新,基于最新的论文、新闻、电影简介等生成,模型无法通过训练数据”背答案”。

注意事项

  • 不同月份的分数不能横向比较(题目不一样)
  • 难度很高,顶级模型准确率也低于 70%,别被低分吓到
  • 偏学术导向,不直接反映日常聊天体验

4. Aider Polyglot

怎么测的:225 道编程题,覆盖 C++、Go、Java、JavaScript、Python、Rust 六种语言。模型需要在 Aider(AI 编程助手)环境中实际编写和编辑代码。

为什么重要:少数测试”实际代码编辑”(不只是生成)能力的榜单。多语言覆盖,还附带成本指标,能看性价比。

注意事项

  • 这是在 Aider 工具内的表现,换个编程环境结果可能不同
  • “架构师+编辑器”双模型组合的成绩不能与单模型直接比
  • 偏算法题,不完全代表日常开发场景

5. SEAL Leaderboards(Scale AI)

怎么测的:由 Scale AI 运营,使用私有数据集 + 人类专家评审。覆盖编程(SWE-Bench Pro)、指令遵循、工具使用、Agent 能力、对抗安全等维度。

为什么重要:题目不公开,模型厂商无法”刷分”。专家评审比普通用户投票更专业。是少数覆盖”安全”和”Agent 能力”维度的榜单。

注意事项

  • Scale AI 与多家模型厂商有商业合作,需注意潜在利益关联
  • 私有数据集意味着外界无法独立复现验证
  • 不同子榜单排名可能矛盾

常见误区

⚠️ 看榜单最容易犯的三个错误

误区一:跑分高 = 好用 跑分测的是”考试能力”,实际使用体验还受响应速度、价格、上下文长度、工具集成等因素影响。选模型要结合自己的实际场景。

误区二:排名不变 榜单每天都在更新。上个月第一名,这个月可能掉到第五。不要因为一次排名就锁死选择。

误区三:一个榜单说了算 每个榜单测的维度不同。一个模型在代码能力上排第一,在对话体验上可能排第十。交叉验证多个榜单,才能得到更全面的判断。

误区四:跑分一定真实 这是目前行业已经曝光的一个大坑——数据污染。已有数据公司被发现往测试集中”注入”特定数据,然后把这部分数据提供给大模型训练公司。模型在训练时”背”过这些答案,面对测试集自然表现很好,但换个场景就现原形。本质上就是提前拿到考题。这也是 LiveBench 每月更新题目的核心原因——老题目永远存在被污染的风险。看到一个模型跑分突然暴涨,先别高兴,多问一句:是真进步了,还是”背题”了?


怎么根据需求选模型?

你的需求优先看哪个榜单当前推荐(2026 年 3 月)
日常聊天、写作Chatbot ArenaClaude Opus 4.6、Gemini 3.1 Pro
写代码、改 BugAider PolyglotGrok 4、DeepSeek V3.2
开源模型自部署Open LLM LeaderboardGLM-4.7、Qwen 3.5、Kimi K2.5
严肃学术/推理LiveBench交叉参考 Arena + LiveBench
企业级安全合规SEAL看 SEAL 对抗鲁棒性子榜

ℹ️ 数据截至日期:2026 年 3 月 8 日 榜单数据随时变化,请以各榜单官网最新数据为准。本文旨在帮你”看懂”榜单,而非提供实时排名。


🔬 进阶:三个前沿方向的专项榜单

以下三个榜单偏专业,适合对代码工程、智能体、多模态有进一步需求的读者。 如果你目前只关心”哪个模型聊天/写东西最好”,上面五个已经完全够用了。

SWE-bench — 谁能独立修 Bug 建项目

官网swebench.com

Aider 测的是”你帮我改这段代码”,SWE-bench 测的是”给你一个 GitHub 上的真实 Bug,你自己去读整个项目的代码并修好它”。

这是目前评估 AI 程序员(如 Devin、Claude Code 等)最严苛的行业标准。模型需要理解完整项目结构、定位问题、编写修复代码并通过测试——跟真实软件工程师的工作流程一模一样。

BFCL — 谁调 API / 工具最强

官网gorilla.cs.berkeley.edu/leaderboard

全称 Berkeley Function Calling Leaderboard(伯克利函数调用排行榜)。

现在的大模型不仅要会聊天,还要会”干活”——调天气 API、操作数据库、控制外部软件。这个榜单专门测模型的 Function Calling(工具调用)能力,是评估 Agent(智能体)实力最权威的基准。

Vision Arena — 谁看图最准

官网:与 Chatbot Arena 同站(lmarena.ai,切换到 Vision 标签)

GPT-4o、Claude Sonnet 都具备很强的看图、读图表、甚至看 UI 界面写代码的能力。上面五个榜单全是纯文本评估,Vision Arena 补上了多模态这块拼图。评测方式跟 Chatbot Arena 一样——用户给两个匿名模型看同一张图,选出理解更准确的那个。


💬 信息来源