👁️ Vision Arena 多模态视觉排行榜

💬 版权声明

本文类型：数据采集/整理

作者：AI 磨刀匠

数据来源：Arena AI - Vision Leaderboard

采集方式：使用 Claude Code 系统抓取并以文字/表格还原，可能存在误差，请以官网为准

数据采集日期：2026-03-17

📊 当前排名（Vision 视觉理解榜）

排名	模型	Arena 分数	投票数	厂商
1	Gemini 3 Pro	1288	13,037	Google
2	Gemini 3.1 Pro Preview	1279	6,186	Google
3	GPT-5.2 Chat	1278	2,922	OpenAI
4	Gemini 3 Flash	1274	12,634	Google
5	Gemini 3 Flash (Thinking)	1261	10,764	Google
6	Dola Seed 2.0 Preview	1254	3,076	字节跳动
7	GPT-5.2 High	1252	6,292	OpenAI
8	GPT-5.1 High	1249	9,375	OpenAI
9	Gemini 2.5 Pro	1248	81,858	Google
10	Kimi K2.5 (Thinking)	1245	6,469	月之暗面
11	GPT-5.1	1242	—	OpenAI
12	GPT-5 High	1240	—	OpenAI
13	Gemini 2.5 Flash	1238	—	Google
14	Grok 3 Mini (High)	1237	—	xAI
15	Claude Opus 4.6	1236	—	Anthropic
16	Gemini 2.0 Flash	1234	—	Google
17	Grok 3 Preview	1233	—	xAI
18	o1 Preview	1232	—	OpenAI
19	Claude Opus 4.5	1231	—	Anthropic
20	GPT-4o	1230	—	OpenAI

💡 关键指标说明

Arena 分数：与文本 Chatbot Arena 相同的 Elo 评分机制，但评测的是视觉理解能力。用户给两个匿名模型看同一张图片，选出理解更准确的那个
投票数：参与对局数。Gemini 2.5 Pro 有 8 万+ 票，数据最稳定
视觉任务包括：图片描述、图表数据提取、UI 界面理解、文档 OCR、数学公式识别、看图写代码等

🔍 本月亮点

Google Gemini 统治视觉赛道：Top 5 占 4 席，Top 20 占 7 席。Gemini 3 Pro 以 1288 分稳居榜首
GPT-5 系列视觉能力也很强：GPT-5.2 Chat 排第 3，多个变体进入 Top 12
字节跳动 Dola Seed 进第 6：国产多模态模型首次进入 Vision Arena Top 10
月之暗面 Kimi K2.5 排第 10：Thinking 模式加持下的视觉理解不容小觑
Claude 在视觉上不是最强项：Opus 4.6 排第 15，与文本榜的第 1 名形成反差——模型各有所长
轻量模型表现亮眼：Gemini 3 Flash（第 4）和 Gemini 2.5 Flash（第 13）以较低成本提供接近旗舰的视觉能力

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原，可能存在误差。有条件的读者建议直接访问官网查看最新数据。官网：arena.ai/leaderboard（切换到 Vision 标签，需科学上网）