目录

🏆 LiveBench 防作弊硬核排行榜

💬 版权声明

  • 本文类型:数据采集/整理
  • 作者:AI 磨刀匠
  • 数据来源LiveBench
  • 采集方式:用户从官网复制数据,AI 整理为文档,可能存在误差,请以官网为准
  • 数据采集日期:2026-03-17

📊 当前排名(Top 20)

排名模型总分推理代码数学数据分析语言指令遵循厂商
1GPT-5.4 Thinking (xHigh)80.2888.1277.5470.0094.1579.3182.63OpenAI
2Gemini 3.1 Pro Preview (High)79.9384.0076.4565.0091.0478.5485.38Google
3Claude 4.6 Opus Thinking (High)76.3388.6778.1861.6789.3269.8983.27Anthropic
4Claude 4.5 Opus Thinking (High)75.9680.0979.6563.3390.3974.4481.26Anthropic
5Claude 4.6 Sonnet Thinking (Med)75.4784.7779.2760.0086.9977.9576.10Anthropic
6GPT-5.2 High74.8483.2176.0751.6793.1778.1679.81OpenAI
7GPT-5.2 Codex74.3077.7183.6251.6788.7778.2073.68OpenAI
8GPT-5.1 Codex Max (High)73.9883.6580.6853.3383.2270.1276.48OpenAI
9Gemini 3 Pro Preview (High)73.3977.4274.6055.0081.8474.3984.62Google
10GPT-5.3 Codex (High)72.7680.1578.1855.0087.8462.6980.09OpenAI
11Gemini 3 Flash Preview (High)72.4074.5573.9040.0084.1774.7784.56Google
12GPT-5.1 High72.0478.7972.4953.3386.9069.6179.26OpenAI
13GPT-5 Pro70.4881.6972.1151.6786.1757.0480.69OpenAI
14Kimi K2.5 Thinking69.0775.9677.8648.3384.8761.3677.67月之暗面
15GLM-568.8569.1173.6455.0083.4667.9077.53智谱 AI
16GPT-5.1 Codex68.6181.9871.7853.3379.5860.7569.48OpenAI
17Claude Sonnet 4.5 Thinking68.1977.5980.3653.3379.3156.9776.45Anthropic
18Grok 4.20 Beta67.9675.2866.0943.3387.0662.8677.72xAI
19GPT-5 Mini (High)65.9168.3268.2046.6782.2055.2075.52OpenAI
20DeepSeek V3.2 Thinking62.2077.1764.6240.0085.0350.0070.41DeepSeek

💡 关键指标说明

  • 总分(Global Average):6 个分项的加权平均,满分 100
  • 推理(Reasoning):逻辑推理、因果分析能力
  • 代码(Coding):代码生成和理解
  • 数学(Mathematics):数学解题。满分 100,但顶级模型也只有 70 分左右——这些题真的很难
  • 数据分析(Data Analysis):图表理解、数据处理
  • 语言(Language):语言理解和生成
  • 指令遵循(IF / Instruction Following):按要求精确执行指令的能力
  • 防作弊机制:题目每月更新,基于最新论文、新闻等生成,模型无法通过训练数据”背答案”

🔍 本月亮点

  • OpenAI GPT-5.4 登顶:80.28 分,是首个突破 80 分的模型,数据分析维度高达 94.15
  • Google Gemini 3.1 Pro 紧随其后:79.93 分,指令遵循 85.38 全场最高
  • Claude 4.6 Opus 推理最强:推理分 88.67 排名第一,但数学 61.67 拖了后腿
  • 数学是所有模型的短板:Top 20 中最高仅 70 分(GPT-5.4),最低 40 分。LiveBench 的数学题确实难
  • 国产模型进 Top 20:Kimi K2.5(第 14)和 GLM-5(第 15)表现稳定
  • 中端模型也能打:Claude Sonnet 4.6 Thinking(第 5,75.47 分)接近旗舰水平,性价比极高

⚠️ 本文数据从 LiveBench 官网复制后整理为表格,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:livebench.ai(需科学上网)