目录
🛠️ BFCL 伯克利函数调用排行榜
💬 版权声明
- 本文类型:数据采集/整理
- 作者:AI 磨刀匠
- 数据来源:Berkeley Function Calling Leaderboard + 公开数据
- 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
- 数据采集日期:2026-03-17
📊 当前排名(BFCL V4)
| 排名 | 模型 | 综合得分 | 参数量 | 厂商 |
|---|---|---|---|---|
| 1 | Llama 3.1 405B Instruct | 0.885 | 405B | Meta |
| 2 | Llama 3.1 70B Instruct | 0.848 | 70B | Meta |
| 3 | Llama 3.1 8B Instruct | 0.761 | 8B | Meta |
| 4 | Qwen3 235B A22B | 0.708 | 235B | 阿里云 |
| 5 | Qwen3 32B | 0.703 | 32B | 阿里云 |
| 6 | Qwen3 30B A3B | 0.691 | 30B | 阿里云 |
| 7 | Nova Pro | 0.684 | — | Amazon |
| 8 | Nova Lite | 0.666 | — | Amazon |
| 9 | QwQ-32B | 0.664 | 32B | 阿里云 |
| 10 | Nova Micro | 0.562 | — | Amazon |
注:以上为公开可查的部分模型数据。BFCL 官网的完整排名包含更多模型(含闭源模型如 GPT、Claude、Gemini 等),但因页面动态加载限制未能完整抓取。建议有条件的读者直接访问官网查看。
💡 关键指标说明
- 综合得分(Overall Accuracy):模型在函数/工具调用任务上的整体准确率,满分 1.0
- 评测维度:包括 AST 评估(抽象语法树匹配)、执行评估(实际运行结果)、相关性检测(是否应该调用函数)
- V4 版本新增:多步骤 Agent 场景评测——模型需要在有状态的对话中连续调用多个工具完成复杂任务
🔍 本月亮点
- Meta Llama 3.1 系列领先:405B、70B、8B 包揽前三,说明 Meta 在 Function Calling 训练上投入很大
- 阿里云 Qwen3 系列表现稳定:4 个变体进入 Top 10,国产模型在工具调用能力上已达一线水平
- 小模型也能调工具:Llama 3.1 8B(仅 8B 参数)得分 0.761,远超部分大模型
- Function Calling 是 Agent 的基础:如果一个模型连”调 API”都做不好,就别指望它能当 Agent 干活了
⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看完整排名。 官网:gorilla.cs.berkeley.edu/leaderboard(需科学上网)