目录

🏆 Chatbot Arena 排行榜

💬 版权声明

  • 本文类型:数据采集/整理
  • 作者:AI 磨刀匠
  • 数据来源Chatbot Arena (arena.ai)
  • 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
  • 数据采集日期:2026-03-17

📊 当前排名(Text 综合榜)

排名模型Arena 分数投票数厂商
1Claude Opus 4.6 (Thinking)150110,754Anthropic
2Claude Opus 4.6150111,577Anthropic
3Gemini 3.1 Pro Preview149313,473Google
4Grok 4.20 Beta114926,913xAI
5Gemini 3 Pro148640,857Google
6GPT-5.4 High14854,930OpenAI
7Grok 4.20 Beta (Reasoning)14823,398xAI
8GPT-5.2 Chat14808,887OpenAI
9Gemini 3 Flash147430,516Google
10Claude Opus 4.5 (Thinking 32K)147335,344Anthropic
11Grok 4.1 (Thinking)147114,567xAI
12GPT-5.3 Chat146912,234OpenAI
13Claude Opus 4.5146813,051Anthropic
14Dola Seed 2.0 Preview14678,901字节跳动
15GPT-5.414651,349OpenAI
16Gemini 3 Flash (Thinking)146110,764Google
17Grok 4.114599,876xAI
18Claude Sonnet 4.614585,204Anthropic
19GPT-5.1 High14499,375OpenAI
20GLM-514473,929智谱 AI

💡 关键指标说明

  • Arena 分数:基于 Elo 评分系统(类似国际象棋等级分)。用户同时跟两个匿名模型对话,选出更好的那个,系统据此计算分数。分数越高,表示在盲测中被用户选中的概率越大
  • 投票数:该模型参与的总对局数。投票越多,分数越稳定可信。低于 5,000 票的标注为 “Preliminary”(初步),排名可能波动较大
  • 前几名分差很小(1-3 分),意味着体验差距微乎其微,不必纠结第一第二

🔍 本月亮点

  • Anthropic 占据前两席:Claude Opus 4.6(含 Thinking 模式)以 1501 分并列榜首
  • 四强争霸:Anthropic、Google、xAI、OpenAI 四家交替出现,差距极小
  • 字节跳动入局:Dola Seed 2.0 Preview 首次进入 Top 15,国产模型的新势力
  • GLM-5 进 Top 20:智谱 AI 是本榜唯一的中国大陆厂商代表
  • Gemini 3 Flash 表现亮眼:轻量模型拿到 1474 分(第 9),性价比极高

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:arena.ai/leaderboard(需科学上网)