🏆 SEAL Leaderboards（Scale AI）

💬 版权声明

本文类型：数据采集/整理

作者：AI 磨刀匠

数据来源：SEAL Leaderboards (Scale AI)

采集方式：使用 Claude Code 系统抓取并以文字/表格还原，可能存在误差，请以官网为准

数据采集日期：2026-03-17

📊 榜单概况

SEAL 不是一个单一排名，而是 25+ 个专项评测基准的集合。每个基准独立排名，使用私有数据集 + 人工专家评审。

以下是主要基准的当前榜首：

基准	测什么	榜首模型	分数	厂商
MCP Atlas	MCP 工具调用	Claude Opus 4.5	62.3	Anthropic
SWE-Bench Pro (Public)	自主代码修复	Claude Opus 4.5	45.89	Anthropic
Humanity’s Last Exam	人类最难考试	Gemini 3 Pro Preview	37.52	Google
MultiChallenge	复合推理挑战	Gemini 3 Pro Preview	65.67	Google
Professional Reasoning (Finance)	金融专业推理	Claude Opus 4.6	53.28	Anthropic
Remote Labor Index	远程劳动力指数	Claude Opus 4.6	4.17	Anthropic

💡 关键指标说明

SEAL 的核心特点：私有数据集，模型厂商无法提前”背题”。每个基准由 Scale AI 的专家团队设计和评审
分数不可跨基准比较：每个基准的评分标准不同，65 分在 MultiChallenge 里是高分，在 SWE-Bench Pro 里 45 分已是顶级
Humanity’s Last Exam（HLE）：被称为”人类最后的考试”，题目由全球各领域顶尖专家出题，目前最强模型也只能答对约 37%

🔍 本月亮点

Anthropic 和 Google 瓜分各赛道：Claude 系列在工具调用和代码修复上领先，Gemini 系列在复合推理和超难考试上领先
MCP Atlas 是新增基准：专门测试模型的 MCP（Model Context Protocol）工具调用能力，反映了 Agent 时代的评测趋势
HLE 分数普遍很低：37% 已经是榜首，说明这些题目确实超出了当前 AI 的能力边界

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原，可能存在误差。有条件的读者建议直接访问官网查看最新数据。官网：labs.scale.com/leaderboard（需科学上网）