目录
🏆 LiveBench 防作弊硬核排行榜
💬 版权声明
- 本文类型:数据采集/整理
- 作者:AI 磨刀匠
- 数据来源:LiveBench
- 采集方式:用户从官网复制数据,AI 整理为文档,可能存在误差,请以官网为准
- 数据采集日期:2026-03-17
📊 当前排名(Top 20)
| 排名 | 模型 | 总分 | 推理 | 代码 | 数学 | 数据分析 | 语言 | 指令遵循 | 厂商 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GPT-5.4 Thinking (xHigh) | 80.28 | 88.12 | 77.54 | 70.00 | 94.15 | 79.31 | 82.63 | OpenAI |
| 2 | Gemini 3.1 Pro Preview (High) | 79.93 | 84.00 | 76.45 | 65.00 | 91.04 | 78.54 | 85.38 | |
| 3 | Claude 4.6 Opus Thinking (High) | 76.33 | 88.67 | 78.18 | 61.67 | 89.32 | 69.89 | 83.27 | Anthropic |
| 4 | Claude 4.5 Opus Thinking (High) | 75.96 | 80.09 | 79.65 | 63.33 | 90.39 | 74.44 | 81.26 | Anthropic |
| 5 | Claude 4.6 Sonnet Thinking (Med) | 75.47 | 84.77 | 79.27 | 60.00 | 86.99 | 77.95 | 76.10 | Anthropic |
| 6 | GPT-5.2 High | 74.84 | 83.21 | 76.07 | 51.67 | 93.17 | 78.16 | 79.81 | OpenAI |
| 7 | GPT-5.2 Codex | 74.30 | 77.71 | 83.62 | 51.67 | 88.77 | 78.20 | 73.68 | OpenAI |
| 8 | GPT-5.1 Codex Max (High) | 73.98 | 83.65 | 80.68 | 53.33 | 83.22 | 70.12 | 76.48 | OpenAI |
| 9 | Gemini 3 Pro Preview (High) | 73.39 | 77.42 | 74.60 | 55.00 | 81.84 | 74.39 | 84.62 | |
| 10 | GPT-5.3 Codex (High) | 72.76 | 80.15 | 78.18 | 55.00 | 87.84 | 62.69 | 80.09 | OpenAI |
| 11 | Gemini 3 Flash Preview (High) | 72.40 | 74.55 | 73.90 | 40.00 | 84.17 | 74.77 | 84.56 | |
| 12 | GPT-5.1 High | 72.04 | 78.79 | 72.49 | 53.33 | 86.90 | 69.61 | 79.26 | OpenAI |
| 13 | GPT-5 Pro | 70.48 | 81.69 | 72.11 | 51.67 | 86.17 | 57.04 | 80.69 | OpenAI |
| 14 | Kimi K2.5 Thinking | 69.07 | 75.96 | 77.86 | 48.33 | 84.87 | 61.36 | 77.67 | 月之暗面 |
| 15 | GLM-5 | 68.85 | 69.11 | 73.64 | 55.00 | 83.46 | 67.90 | 77.53 | 智谱 AI |
| 16 | GPT-5.1 Codex | 68.61 | 81.98 | 71.78 | 53.33 | 79.58 | 60.75 | 69.48 | OpenAI |
| 17 | Claude Sonnet 4.5 Thinking | 68.19 | 77.59 | 80.36 | 53.33 | 79.31 | 56.97 | 76.45 | Anthropic |
| 18 | Grok 4.20 Beta | 67.96 | 75.28 | 66.09 | 43.33 | 87.06 | 62.86 | 77.72 | xAI |
| 19 | GPT-5 Mini (High) | 65.91 | 68.32 | 68.20 | 46.67 | 82.20 | 55.20 | 75.52 | OpenAI |
| 20 | DeepSeek V3.2 Thinking | 62.20 | 77.17 | 64.62 | 40.00 | 85.03 | 50.00 | 70.41 | DeepSeek |
💡 关键指标说明
- 总分(Global Average):6 个分项的加权平均,满分 100
- 推理(Reasoning):逻辑推理、因果分析能力
- 代码(Coding):代码生成和理解
- 数学(Mathematics):数学解题。满分 100,但顶级模型也只有 70 分左右——这些题真的很难
- 数据分析(Data Analysis):图表理解、数据处理
- 语言(Language):语言理解和生成
- 指令遵循(IF / Instruction Following):按要求精确执行指令的能力
- 防作弊机制:题目每月更新,基于最新论文、新闻等生成,模型无法通过训练数据”背答案”
🔍 本月亮点
- OpenAI GPT-5.4 登顶:80.28 分,是首个突破 80 分的模型,数据分析维度高达 94.15
- Google Gemini 3.1 Pro 紧随其后:79.93 分,指令遵循 85.38 全场最高
- Claude 4.6 Opus 推理最强:推理分 88.67 排名第一,但数学 61.67 拖了后腿
- 数学是所有模型的短板:Top 20 中最高仅 70 分(GPT-5.4),最低 40 分。LiveBench 的数学题确实难
- 国产模型进 Top 20:Kimi K2.5(第 14)和 GLM-5(第 15)表现稳定
- 中端模型也能打:Claude Sonnet 4.6 Thinking(第 5,75.47 分)接近旗舰水平,性价比极高
⚠️ 本文数据从 LiveBench 官网复制后整理为表格,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:livebench.ai(需科学上网)