目录

👁️ Vision Arena 多模态视觉排行榜

💬 版权声明

  • 本文类型:数据采集/整理
  • 作者:AI 磨刀匠
  • 数据来源Arena AI - Vision Leaderboard
  • 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
  • 数据采集日期:2026-03-17

📊 当前排名(Vision 视觉理解榜)

排名模型Arena 分数投票数厂商
1Gemini 3 Pro128813,037Google
2Gemini 3.1 Pro Preview12796,186Google
3GPT-5.2 Chat12782,922OpenAI
4Gemini 3 Flash127412,634Google
5Gemini 3 Flash (Thinking)126110,764Google
6Dola Seed 2.0 Preview12543,076字节跳动
7GPT-5.2 High12526,292OpenAI
8GPT-5.1 High12499,375OpenAI
9Gemini 2.5 Pro124881,858Google
10Kimi K2.5 (Thinking)12456,469月之暗面
11GPT-5.11242OpenAI
12GPT-5 High1240OpenAI
13Gemini 2.5 Flash1238Google
14Grok 3 Mini (High)1237xAI
15Claude Opus 4.61236Anthropic
16Gemini 2.0 Flash1234Google
17Grok 3 Preview1233xAI
18o1 Preview1232OpenAI
19Claude Opus 4.51231Anthropic
20GPT-4o1230OpenAI

💡 关键指标说明

  • Arena 分数:与文本 Chatbot Arena 相同的 Elo 评分机制,但评测的是视觉理解能力。用户给两个匿名模型看同一张图片,选出理解更准确的那个
  • 投票数:参与对局数。Gemini 2.5 Pro 有 8 万+ 票,数据最稳定
  • 视觉任务包括:图片描述、图表数据提取、UI 界面理解、文档 OCR、数学公式识别、看图写代码等

🔍 本月亮点

  • Google Gemini 统治视觉赛道:Top 5 占 4 席,Top 20 占 7 席。Gemini 3 Pro 以 1288 分稳居榜首
  • GPT-5 系列视觉能力也很强:GPT-5.2 Chat 排第 3,多个变体进入 Top 12
  • 字节跳动 Dola Seed 进第 6:国产多模态模型首次进入 Vision Arena Top 10
  • 月之暗面 Kimi K2.5 排第 10:Thinking 模式加持下的视觉理解不容小觑
  • Claude 在视觉上不是最强项:Opus 4.6 排第 15,与文本榜的第 1 名形成反差——模型各有所长
  • 轻量模型表现亮眼:Gemini 3 Flash(第 4)和 Gemini 2.5 Flash(第 13)以较低成本提供接近旗舰的视觉能力

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:arena.ai/leaderboard(切换到 Vision 标签,需科学上网)