目录

🏆 SEAL Leaderboards(Scale AI)

💬 版权声明

  • 本文类型:数据采集/整理
  • 作者:AI 磨刀匠
  • 数据来源SEAL Leaderboards (Scale AI)
  • 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
  • 数据采集日期:2026-03-17

📊 榜单概况

SEAL 不是一个单一排名,而是 25+ 个专项评测基准的集合。每个基准独立排名,使用私有数据集 + 人工专家评审。

以下是主要基准的当前榜首:

基准测什么榜首模型分数厂商
MCP AtlasMCP 工具调用Claude Opus 4.562.3Anthropic
SWE-Bench Pro (Public)自主代码修复Claude Opus 4.545.89Anthropic
Humanity’s Last Exam人类最难考试Gemini 3 Pro Preview37.52Google
MultiChallenge复合推理挑战Gemini 3 Pro Preview65.67Google
Professional Reasoning (Finance)金融专业推理Claude Opus 4.653.28Anthropic
Remote Labor Index远程劳动力指数Claude Opus 4.64.17Anthropic

💡 关键指标说明

  • SEAL 的核心特点:私有数据集,模型厂商无法提前”背题”。每个基准由 Scale AI 的专家团队设计和评审
  • 分数不可跨基准比较:每个基准的评分标准不同,65 分在 MultiChallenge 里是高分,在 SWE-Bench Pro 里 45 分已是顶级
  • Humanity’s Last Exam(HLE):被称为”人类最后的考试”,题目由全球各领域顶尖专家出题,目前最强模型也只能答对约 37%

🔍 本月亮点

  • Anthropic 和 Google 瓜分各赛道:Claude 系列在工具调用和代码修复上领先,Gemini 系列在复合推理和超难考试上领先
  • MCP Atlas 是新增基准:专门测试模型的 MCP(Model Context Protocol)工具调用能力,反映了 Agent 时代的评测趋势
  • HLE 分数普遍很低:37% 已经是榜首,说明这些题目确实超出了当前 AI 的能力边界

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看最新数据。 官网:labs.scale.com/leaderboard(需科学上网)