目录

🏆 Open LLM Leaderboard 开源模型排行榜

💬 版权声明

  • 本文类型:数据采集/整理
  • 作者:AI 磨刀匠
  • 数据来源Open LLM Leaderboard (HuggingFace)
  • 采集方式:用户从官网复制数据,AI 整理为文档,可能存在误差,请以官网为准
  • 数据采集日期:2026-03-17

📊 当前排名(Top 20)

排名模型平均分IFEvalBBHMATHMUSRMMLU-PRO参数量
1calme-3.2-instruct-78b52.08%80.63%62.61%40.33%20.36%38.53%78B
2calme-3.1-instruct-78b51.29%81.36%62.41%39.27%19.46%36.50%78B
3CalmeRys-78B-Orpo-v0.151.23%81.63%61.92%40.63%20.02%36.37%78B
4calme-2.4-rys-78b50.77%80.11%62.16%40.71%20.36%34.57%78B
5Qwen2.5-72B-Instruct (abliterated)48.11%85.93%60.49%60.12%19.35%12.34%72B
6Qwen2.5-72B-Instruct47.98%86.38%61.87%59.82%16.67%11.74%72B
7calme-2.1-qwen2.5-72b47.86%86.62%61.66%59.14%15.10%13.30%72B
8Homer-v1.0-Qwen2.5-72B47.46%76.28%62.27%49.02%22.15%17.90%72B
9qwen2.5-test-32b-it47.37%78.89%58.28%59.74%15.21%19.13%32B
10Linkbricks-Horizon-AI-Avengers-V1-32B47.34%79.72%57.63%60.27%14.99%18.16%32B
11calme-2.2-qwen2.5-72b47.22%84.77%61.80%58.91%14.54%12.02%72B
12FluentlyLM-Prinum47.22%80.90%59.48%54.00%18.23%17.26%
13T3Q-Qwen2.5-14B-Instruct-1M-e347.09%73.24%65.47%28.63%22.26%38.69%14B
14T3Q-qwen2.5-14b-v1.0-e347.09%73.24%65.47%28.63%22.26%38.69%14B
15Qwen2.5-32B-Instruct (abliterated-v2)46.89%83.34%56.53%59.52%15.66%14.93%32B
16Gilgamesh-72B46.79%84.86%61.84%43.81%19.24%17.66%72B
17ultiima-72B46.77%71.40%61.10%53.55%21.92%18.12%72B
18zetasepic-abliteratedV2-Qwen2.5-32B46.76%83.28%56.83%58.53%15.66%14.22%32B
19Awqward2.5-32B-Instruct46.75%82.55%57.21%62.31%12.08%13.87%32B
20test-2.5-72B46.74%84.37%62.15%41.09%18.57%20.52%72B

💡 关键指标说明

  • 平均分(Average):6 个基准的平均值,满分 100%
  • IFEval:指令遵循能力——模型是否按要求的格式、约束精确执行
  • BBH(Big-Bench Hard):27 道高难度推理题
  • MATH:数学解题能力
  • MUSR(Multi-Step Reasoning):多步推理,需要模型连续推理多步才能得出答案
  • MMLU-PRO:大规模知识广度测试(升级版),覆盖 57 个学科

🔍 本月亮点

  • Calme 系列屠榜:MaziyarPanahi 的 calme 系列微调模型包揽前 4 名,均基于 78B 参数架构
  • Qwen2.5 是底座之王:Top 20 中绝大多数模型是基于 Qwen2.5(72B/32B/14B)微调的,说明 Qwen2.5 的基础能力极强
  • 分数普遍不高:第一名也只有 52%,v2 基准确实难度大。不要拿这个分数跟其他榜单比
  • MUSR 是最大短板:所有模型在多步推理上只有 10-22%,这是当前开源模型的主要瓶颈
  • 小模型也能打:14B 参数的 T3Q-Qwen2.5 排到第 13,BBH 65.47% 甚至超过很多 72B 模型
  • 社区微调 vs 官方:前 20 大部分是社区微调模型,官方 Qwen2.5-72B-Instruct 排第 6

为什么看不到 Qwen 3.5、GLM-5、Kimi K2.5 等明星模型? 这个榜单需要模型方主动提交 + 权重上传到 HuggingFace 才能参与评测。很多最新的旗舰开源模型(如 Qwen 3.5、GLM-5 等)可能还没提交,或者刚发布排队评测中。你在第三方聚合站(如 llm-stats.com)看到的”S 级开源模型排名”是综合了多个榜单的结果,不是这个榜单本身的数据。所以这里的 Top 20 以社区微调模型为主,不代表开源模型的全部实力。

重要提醒:这个榜单的数据集是公开的,存在”刷榜”风险。看分数时务必结合 LiveBench 等防作弊榜单交叉验证。


⚠️ 本文数据从 HuggingFace 官网复制后整理为表格,可能存在误差。 有条件的读者建议直接访问官网查看完整排名。 官网:huggingface.co/spaces/open-llm-leaderboard(需科学上网)