🏆 Open LLM Leaderboard 开源模型排行榜

💬 版权声明

本文类型：数据采集/整理

作者：AI 磨刀匠

数据来源：Open LLM Leaderboard (HuggingFace)

采集方式：用户从官网复制数据，AI 整理为文档，可能存在误差，请以官网为准

数据采集日期：2026-03-17

📊 当前排名（Top 20）

排名	模型	平均分	IFEval	BBH	MATH	MUSR	MMLU-PRO	参数量
1	calme-3.2-instruct-78b	52.08%	80.63%	62.61%	40.33%	20.36%	38.53%	78B
2	calme-3.1-instruct-78b	51.29%	81.36%	62.41%	39.27%	19.46%	36.50%	78B
3	CalmeRys-78B-Orpo-v0.1	51.23%	81.63%	61.92%	40.63%	20.02%	36.37%	78B
4	calme-2.4-rys-78b	50.77%	80.11%	62.16%	40.71%	20.36%	34.57%	78B
5	Qwen2.5-72B-Instruct (abliterated)	48.11%	85.93%	60.49%	60.12%	19.35%	12.34%	72B
6	Qwen2.5-72B-Instruct	47.98%	86.38%	61.87%	59.82%	16.67%	11.74%	72B
7	calme-2.1-qwen2.5-72b	47.86%	86.62%	61.66%	59.14%	15.10%	13.30%	72B
8	Homer-v1.0-Qwen2.5-72B	47.46%	76.28%	62.27%	49.02%	22.15%	17.90%	72B
9	qwen2.5-test-32b-it	47.37%	78.89%	58.28%	59.74%	15.21%	19.13%	32B
10	Linkbricks-Horizon-AI-Avengers-V1-32B	47.34%	79.72%	57.63%	60.27%	14.99%	18.16%	32B
11	calme-2.2-qwen2.5-72b	47.22%	84.77%	61.80%	58.91%	14.54%	12.02%	72B
12	FluentlyLM-Prinum	47.22%	80.90%	59.48%	54.00%	18.23%	17.26%	—
13	T3Q-Qwen2.5-14B-Instruct-1M-e3	47.09%	73.24%	65.47%	28.63%	22.26%	38.69%	14B
14	T3Q-qwen2.5-14b-v1.0-e3	47.09%	73.24%	65.47%	28.63%	22.26%	38.69%	14B
15	Qwen2.5-32B-Instruct (abliterated-v2)	46.89%	83.34%	56.53%	59.52%	15.66%	14.93%	32B
16	Gilgamesh-72B	46.79%	84.86%	61.84%	43.81%	19.24%	17.66%	72B
17	ultiima-72B	46.77%	71.40%	61.10%	53.55%	21.92%	18.12%	72B
18	zetasepic-abliteratedV2-Qwen2.5-32B	46.76%	83.28%	56.83%	58.53%	15.66%	14.22%	32B
19	Awqward2.5-32B-Instruct	46.75%	82.55%	57.21%	62.31%	12.08%	13.87%	32B
20	test-2.5-72B	46.74%	84.37%	62.15%	41.09%	18.57%	20.52%	72B

💡 关键指标说明

平均分（Average）：6 个基准的平均值，满分 100%
IFEval：指令遵循能力——模型是否按要求的格式、约束精确执行
BBH（Big-Bench Hard）：27 道高难度推理题
MATH：数学解题能力
MUSR（Multi-Step Reasoning）：多步推理，需要模型连续推理多步才能得出答案
MMLU-PRO：大规模知识广度测试（升级版），覆盖 57 个学科

🔍 本月亮点

Calme 系列屠榜：MaziyarPanahi 的 calme 系列微调模型包揽前 4 名，均基于 78B 参数架构
Qwen2.5 是底座之王：Top 20 中绝大多数模型是基于 Qwen2.5（72B/32B/14B）微调的，说明 Qwen2.5 的基础能力极强
分数普遍不高：第一名也只有 52%，v2 基准确实难度大。不要拿这个分数跟其他榜单比
MUSR 是最大短板：所有模型在多步推理上只有 10-22%，这是当前开源模型的主要瓶颈
小模型也能打：14B 参数的 T3Q-Qwen2.5 排到第 13，BBH 65.47% 甚至超过很多 72B 模型
社区微调 vs 官方：前 20 大部分是社区微调模型，官方 Qwen2.5-72B-Instruct 排第 6

为什么看不到 Qwen 3.5、GLM-5、Kimi K2.5 等明星模型？ 这个榜单需要模型方主动提交 + 权重上传到 HuggingFace 才能参与评测。很多最新的旗舰开源模型（如 Qwen 3.5、GLM-5 等）可能还没提交，或者刚发布排队评测中。你在第三方聚合站（如 llm-stats.com）看到的”S 级开源模型排名”是综合了多个榜单的结果，不是这个榜单本身的数据。所以这里的 Top 20 以社区微调模型为主，不代表开源模型的全部实力。

重要提醒：这个榜单的数据集是公开的，存在”刷榜”风险。看分数时务必结合 LiveBench 等防作弊榜单交叉验证。

⚠️ 本文数据从 HuggingFace 官网复制后整理为表格，可能存在误差。有条件的读者建议直接访问官网查看完整排名。官网：huggingface.co/spaces/open-llm-leaderboard（需科学上网）