目录

🛠️ BFCL 伯克利函数调用排行榜

💬 版权声明

  • 本文类型:数据采集/整理
  • 作者:AI 磨刀匠
  • 数据来源Berkeley Function Calling Leaderboard + 公开数据
  • 采集方式:使用 Claude Code 系统抓取并以文字/表格还原,可能存在误差,请以官网为准
  • 数据采集日期:2026-03-17

📊 当前排名(BFCL V4)

排名模型综合得分参数量厂商
1Llama 3.1 405B Instruct0.885405BMeta
2Llama 3.1 70B Instruct0.84870BMeta
3Llama 3.1 8B Instruct0.7618BMeta
4Qwen3 235B A22B0.708235B阿里云
5Qwen3 32B0.70332B阿里云
6Qwen3 30B A3B0.69130B阿里云
7Nova Pro0.684Amazon
8Nova Lite0.666Amazon
9QwQ-32B0.66432B阿里云
10Nova Micro0.562Amazon

注:以上为公开可查的部分模型数据。BFCL 官网的完整排名包含更多模型(含闭源模型如 GPT、Claude、Gemini 等),但因页面动态加载限制未能完整抓取。建议有条件的读者直接访问官网查看。

💡 关键指标说明

  • 综合得分(Overall Accuracy):模型在函数/工具调用任务上的整体准确率,满分 1.0
  • 评测维度:包括 AST 评估(抽象语法树匹配)、执行评估(实际运行结果)、相关性检测(是否应该调用函数)
  • V4 版本新增:多步骤 Agent 场景评测——模型需要在有状态的对话中连续调用多个工具完成复杂任务

🔍 本月亮点

  • Meta Llama 3.1 系列领先:405B、70B、8B 包揽前三,说明 Meta 在 Function Calling 训练上投入很大
  • 阿里云 Qwen3 系列表现稳定:4 个变体进入 Top 10,国产模型在工具调用能力上已达一线水平
  • 小模型也能调工具:Llama 3.1 8B(仅 8B 参数)得分 0.761,远超部分大模型
  • Function Calling 是 Agent 的基础:如果一个模型连”调 API”都做不好,就别指望它能当 Agent 干活了

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原,可能存在误差。 有条件的读者建议直接访问官网查看完整排名。 官网:gorilla.cs.berkeley.edu/leaderboard(需科学上网)