目录
🏆 Open LLM Leaderboard 开源模型排行榜
💬 版权声明
- 本文类型:数据采集/整理
- 作者:AI 磨刀匠
- 数据来源:Open LLM Leaderboard (HuggingFace)
- 采集方式:用户从官网复制数据,AI 整理为文档,可能存在误差,请以官网为准
- 数据采集日期:2026-03-17
📊 当前排名(Top 20)
| 排名 | 模型 | 平均分 | IFEval | BBH | MATH | MUSR | MMLU-PRO | 参数量 |
|---|---|---|---|---|---|---|---|---|
| 1 | calme-3.2-instruct-78b | 52.08% | 80.63% | 62.61% | 40.33% | 20.36% | 38.53% | 78B |
| 2 | calme-3.1-instruct-78b | 51.29% | 81.36% | 62.41% | 39.27% | 19.46% | 36.50% | 78B |
| 3 | CalmeRys-78B-Orpo-v0.1 | 51.23% | 81.63% | 61.92% | 40.63% | 20.02% | 36.37% | 78B |
| 4 | calme-2.4-rys-78b | 50.77% | 80.11% | 62.16% | 40.71% | 20.36% | 34.57% | 78B |
| 5 | Qwen2.5-72B-Instruct (abliterated) | 48.11% | 85.93% | 60.49% | 60.12% | 19.35% | 12.34% | 72B |
| 6 | Qwen2.5-72B-Instruct | 47.98% | 86.38% | 61.87% | 59.82% | 16.67% | 11.74% | 72B |
| 7 | calme-2.1-qwen2.5-72b | 47.86% | 86.62% | 61.66% | 59.14% | 15.10% | 13.30% | 72B |
| 8 | Homer-v1.0-Qwen2.5-72B | 47.46% | 76.28% | 62.27% | 49.02% | 22.15% | 17.90% | 72B |
| 9 | qwen2.5-test-32b-it | 47.37% | 78.89% | 58.28% | 59.74% | 15.21% | 19.13% | 32B |
| 10 | Linkbricks-Horizon-AI-Avengers-V1-32B | 47.34% | 79.72% | 57.63% | 60.27% | 14.99% | 18.16% | 32B |
| 11 | calme-2.2-qwen2.5-72b | 47.22% | 84.77% | 61.80% | 58.91% | 14.54% | 12.02% | 72B |
| 12 | FluentlyLM-Prinum | 47.22% | 80.90% | 59.48% | 54.00% | 18.23% | 17.26% | — |
| 13 | T3Q-Qwen2.5-14B-Instruct-1M-e3 | 47.09% | 73.24% | 65.47% | 28.63% | 22.26% | 38.69% | 14B |
| 14 | T3Q-qwen2.5-14b-v1.0-e3 | 47.09% | 73.24% | 65.47% | 28.63% | 22.26% | 38.69% | 14B |
| 15 | Qwen2.5-32B-Instruct (abliterated-v2) | 46.89% | 83.34% | 56.53% | 59.52% | 15.66% | 14.93% | 32B |
| 16 | Gilgamesh-72B | 46.79% | 84.86% | 61.84% | 43.81% | 19.24% | 17.66% | 72B |
| 17 | ultiima-72B | 46.77% | 71.40% | 61.10% | 53.55% | 21.92% | 18.12% | 72B |
| 18 | zetasepic-abliteratedV2-Qwen2.5-32B | 46.76% | 83.28% | 56.83% | 58.53% | 15.66% | 14.22% | 32B |
| 19 | Awqward2.5-32B-Instruct | 46.75% | 82.55% | 57.21% | 62.31% | 12.08% | 13.87% | 32B |
| 20 | test-2.5-72B | 46.74% | 84.37% | 62.15% | 41.09% | 18.57% | 20.52% | 72B |
💡 关键指标说明
- 平均分(Average):6 个基准的平均值,满分 100%
- IFEval:指令遵循能力——模型是否按要求的格式、约束精确执行
- BBH(Big-Bench Hard):27 道高难度推理题
- MATH:数学解题能力
- MUSR(Multi-Step Reasoning):多步推理,需要模型连续推理多步才能得出答案
- MMLU-PRO:大规模知识广度测试(升级版),覆盖 57 个学科
🔍 本月亮点
- Calme 系列屠榜:MaziyarPanahi 的 calme 系列微调模型包揽前 4 名,均基于 78B 参数架构
- Qwen2.5 是底座之王:Top 20 中绝大多数模型是基于 Qwen2.5(72B/32B/14B)微调的,说明 Qwen2.5 的基础能力极强
- 分数普遍不高:第一名也只有 52%,v2 基准确实难度大。不要拿这个分数跟其他榜单比
- MUSR 是最大短板:所有模型在多步推理上只有 10-22%,这是当前开源模型的主要瓶颈
- 小模型也能打:14B 参数的 T3Q-Qwen2.5 排到第 13,BBH 65.47% 甚至超过很多 72B 模型
- 社区微调 vs 官方:前 20 大部分是社区微调模型,官方 Qwen2.5-72B-Instruct 排第 6
为什么看不到 Qwen 3.5、GLM-5、Kimi K2.5 等明星模型? 这个榜单需要模型方主动提交 + 权重上传到 HuggingFace 才能参与评测。很多最新的旗舰开源模型(如 Qwen 3.5、GLM-5 等)可能还没提交,或者刚发布排队评测中。你在第三方聚合站(如 llm-stats.com)看到的”S 级开源模型排名”是综合了多个榜单的结果,不是这个榜单本身的数据。所以这里的 Top 20 以社区微调模型为主,不代表开源模型的全部实力。
重要提醒:这个榜单的数据集是公开的,存在”刷榜”风险。看分数时务必结合 LiveBench 等防作弊榜单交叉验证。
⚠️ 本文数据从 HuggingFace 官网复制后整理为表格,可能存在误差。 有条件的读者建议直接访问官网查看完整排名。 官网:huggingface.co/spaces/open-llm-leaderboard(需科学上网)