🏆 Chatbot Arena 排行榜

💬 版权声明

本文类型：数据采集/整理

作者：AI 磨刀匠

数据来源：Chatbot Arena (arena.ai)

采集方式：使用 Claude Code 系统抓取并以文字/表格还原，可能存在误差，请以官网为准

数据采集日期：2026-03-17

📊 当前排名（Text 综合榜）

排名	模型	Arena 分数	投票数	厂商
1	Claude Opus 4.6 (Thinking)	1501	10,754	Anthropic
2	Claude Opus 4.6	1501	11,577	Anthropic
3	Gemini 3.1 Pro Preview	1493	13,473	Google
4	Grok 4.20 Beta1	1492	6,913	xAI
5	Gemini 3 Pro	1486	40,857	Google
6	GPT-5.4 High	1485	4,930	OpenAI
7	Grok 4.20 Beta (Reasoning)	1482	3,398	xAI
8	GPT-5.2 Chat	1480	8,887	OpenAI
9	Gemini 3 Flash	1474	30,516	Google
10	Claude Opus 4.5 (Thinking 32K)	1473	35,344	Anthropic
11	Grok 4.1 (Thinking)	1471	14,567	xAI
12	GPT-5.3 Chat	1469	12,234	OpenAI
13	Claude Opus 4.5	1468	13,051	Anthropic
14	Dola Seed 2.0 Preview	1467	8,901	字节跳动
15	GPT-5.4	1465	1,349	OpenAI
16	Gemini 3 Flash (Thinking)	1461	10,764	Google
17	Grok 4.1	1459	9,876	xAI
18	Claude Sonnet 4.6	1458	5,204	Anthropic
19	GPT-5.1 High	1449	9,375	OpenAI
20	GLM-5	1447	3,929	智谱 AI

💡 关键指标说明

Arena 分数：基于 Elo 评分系统（类似国际象棋等级分）。用户同时跟两个匿名模型对话，选出更好的那个，系统据此计算分数。分数越高，表示在盲测中被用户选中的概率越大
投票数：该模型参与的总对局数。投票越多，分数越稳定可信。低于 5,000 票的标注为 “Preliminary”（初步），排名可能波动较大
前几名分差很小（1-3 分），意味着体验差距微乎其微，不必纠结第一第二

🔍 本月亮点

Anthropic 占据前两席：Claude Opus 4.6（含 Thinking 模式）以 1501 分并列榜首
四强争霸：Anthropic、Google、xAI、OpenAI 四家交替出现，差距极小
字节跳动入局：Dola Seed 2.0 Preview 首次进入 Top 15，国产模型的新势力
GLM-5 进 Top 20：智谱 AI 是本榜唯一的中国大陆厂商代表
Gemini 3 Flash 表现亮眼：轻量模型拿到 1474 分（第 9），性价比极高

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原，可能存在误差。有条件的读者建议直接访问官网查看最新数据。官网：arena.ai/leaderboard（需科学上网）