目录

🏆 LiveBench 防作弊硬核排行榜

💬 版权声明

本文类型：数据采集/整理

作者：AI 磨刀匠

数据来源：LiveBench

采集方式：用户从官网复制数据，AI 整理为文档，可能存在误差，请以官网为准

数据采集日期：2026-03-17

📊 当前排名（Top 20）

排名	模型	总分	推理	代码	数学	数据分析	语言	指令遵循	厂商
1	GPT-5.4 Thinking (xHigh)	80.28	88.12	77.54	70.00	94.15	79.31	82.63	OpenAI
2	Gemini 3.1 Pro Preview (High)	79.93	84.00	76.45	65.00	91.04	78.54	85.38	Google
3	Claude 4.6 Opus Thinking (High)	76.33	88.67	78.18	61.67	89.32	69.89	83.27	Anthropic
4	Claude 4.5 Opus Thinking (High)	75.96	80.09	79.65	63.33	90.39	74.44	81.26	Anthropic
5	Claude 4.6 Sonnet Thinking (Med)	75.47	84.77	79.27	60.00	86.99	77.95	76.10	Anthropic
6	GPT-5.2 High	74.84	83.21	76.07	51.67	93.17	78.16	79.81	OpenAI
7	GPT-5.2 Codex	74.30	77.71	83.62	51.67	88.77	78.20	73.68	OpenAI
8	GPT-5.1 Codex Max (High)	73.98	83.65	80.68	53.33	83.22	70.12	76.48	OpenAI
9	Gemini 3 Pro Preview (High)	73.39	77.42	74.60	55.00	81.84	74.39	84.62	Google
10	GPT-5.3 Codex (High)	72.76	80.15	78.18	55.00	87.84	62.69	80.09	OpenAI
11	Gemini 3 Flash Preview (High)	72.40	74.55	73.90	40.00	84.17	74.77	84.56	Google
12	GPT-5.1 High	72.04	78.79	72.49	53.33	86.90	69.61	79.26	OpenAI
13	GPT-5 Pro	70.48	81.69	72.11	51.67	86.17	57.04	80.69	OpenAI
14	Kimi K2.5 Thinking	69.07	75.96	77.86	48.33	84.87	61.36	77.67	月之暗面
15	GLM-5	68.85	69.11	73.64	55.00	83.46	67.90	77.53	智谱 AI
16	GPT-5.1 Codex	68.61	81.98	71.78	53.33	79.58	60.75	69.48	OpenAI
17	Claude Sonnet 4.5 Thinking	68.19	77.59	80.36	53.33	79.31	56.97	76.45	Anthropic
18	Grok 4.20 Beta	67.96	75.28	66.09	43.33	87.06	62.86	77.72	xAI
19	GPT-5 Mini (High)	65.91	68.32	68.20	46.67	82.20	55.20	75.52	OpenAI
20	DeepSeek V3.2 Thinking	62.20	77.17	64.62	40.00	85.03	50.00	70.41	DeepSeek

💡 关键指标说明

总分（Global Average）：6 个分项的加权平均，满分 100
推理（Reasoning）：逻辑推理、因果分析能力
代码（Coding）：代码生成和理解
数学（Mathematics）：数学解题。满分 100，但顶级模型也只有 70 分左右——这些题真的很难
数据分析（Data Analysis）：图表理解、数据处理
语言（Language）：语言理解和生成
指令遵循（IF / Instruction Following）：按要求精确执行指令的能力
防作弊机制：题目每月更新，基于最新论文、新闻等生成，模型无法通过训练数据”背答案”

🔍 本月亮点

OpenAI GPT-5.4 登顶：80.28 分，是首个突破 80 分的模型，数据分析维度高达 94.15
Google Gemini 3.1 Pro 紧随其后：79.93 分，指令遵循 85.38 全场最高
Claude 4.6 Opus 推理最强：推理分 88.67 排名第一，但数学 61.67 拖了后腿
数学是所有模型的短板：Top 20 中最高仅 70 分（GPT-5.4），最低 40 分。LiveBench 的数学题确实难
国产模型进 Top 20：Kimi K2.5（第 14）和 GLM-5（第 15）表现稳定
中端模型也能打：Claude Sonnet 4.6 Thinking（第 5，75.47 分）接近旗舰水平，性价比极高

⚠️ 本文数据从 LiveBench 官网复制后整理为表格，可能存在误差。有条件的读者建议直接访问官网查看最新数据。官网：livebench.ai（需科学上网）