目录
🏆 SEAL Leaderboards(Scale AI)
💬 版权声明
- 本文类型:数据采集/整理
- 作者:AI 磨刀匠
- 数据来源:SEAL Leaderboards (Scale AI)
- 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
- 数据采集日期:2026-03-17
📊 榜单概况
SEAL 不是一个单一排名,而是 25+ 个专项评测基准的集合。每个基准独立排名,使用私有数据集 + 人工专家评审。
以下是主要基准的当前榜首:
| 基准 | 测什么 | 榜首模型 | 分数 | 厂商 |
|---|---|---|---|---|
| MCP Atlas | MCP 工具调用 | Claude Opus 4.5 | 62.3 | Anthropic |
| SWE-Bench Pro (Public) | 自主代码修复 | Claude Opus 4.5 | 45.89 | Anthropic |
| Humanity’s Last Exam | 人类最难考试 | Gemini 3 Pro Preview | 37.52 | |
| MultiChallenge | 复合推理挑战 | Gemini 3 Pro Preview | 65.67 | |
| Professional Reasoning (Finance) | 金融专业推理 | Claude Opus 4.6 | 53.28 | Anthropic |
| Remote Labor Index | 远程劳动力指数 | Claude Opus 4.6 | 4.17 | Anthropic |
💡 关键指标说明
- SEAL 的核心特点:私有数据集,模型厂商无法提前”背题”。每个基准由 Scale AI 的专家团队设计和评审
- 分数不可跨基准比较:每个基准的评分标准不同,65 分在 MultiChallenge 里是高分,在 SWE-Bench Pro 里 45 分已是顶级
- Humanity’s Last Exam(HLE):被称为”人类最后的考试”,题目由全球各领域顶尖专家出题,目前最强模型也只能答对约 37%
🔍 本月亮点
- Anthropic 和 Google 瓜分各赛道:Claude 系列在工具调用和代码修复上领先,Gemini 系列在复合推理和超难考试上领先
- MCP Atlas 是新增基准:专门测试模型的 MCP(Model Context Protocol)工具调用能力,反映了 Agent 时代的评测趋势
- HLE 分数普遍很低:37% 已经是榜首,说明这些题目确实超出了当前 AI 的能力边界
⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:labs.scale.com/leaderboard(需科学上网)