🛠️ BFCL 伯克利函数调用排行榜

💬 版权声明

本文类型：数据采集/整理

作者：AI 磨刀匠

数据来源：Berkeley Function Calling Leaderboard + 公开数据

采集方式：使用 Claude Code 系统抓取并以文字/表格还原，可能存在误差，请以官网为准

数据采集日期：2026-03-17

📊 当前排名（BFCL V4）

排名	模型	综合得分	参数量	厂商
1	Llama 3.1 405B Instruct	0.885	405B	Meta
2	Llama 3.1 70B Instruct	0.848	70B	Meta
3	Llama 3.1 8B Instruct	0.761	8B	Meta
4	Qwen3 235B A22B	0.708	235B	阿里云
5	Qwen3 32B	0.703	32B	阿里云
6	Qwen3 30B A3B	0.691	30B	阿里云
7	Nova Pro	0.684	—	Amazon
8	Nova Lite	0.666	—	Amazon
9	QwQ-32B	0.664	32B	阿里云
10	Nova Micro	0.562	—	Amazon

注：以上为公开可查的部分模型数据。BFCL 官网的完整排名包含更多模型（含闭源模型如 GPT、Claude、Gemini 等），但因页面动态加载限制未能完整抓取。建议有条件的读者直接访问官网查看。

💡 关键指标说明

综合得分（Overall Accuracy）：模型在函数/工具调用任务上的整体准确率，满分 1.0
评测维度：包括 AST 评估（抽象语法树匹配）、执行评估（实际运行结果）、相关性检测（是否应该调用函数）
V4 版本新增：多步骤 Agent 场景评测——模型需要在有状态的对话中连续调用多个工具完成复杂任务

🔍 本月亮点

Meta Llama 3.1 系列领先：405B、70B、8B 包揽前三，说明 Meta 在 Function Calling 训练上投入很大
阿里云 Qwen3 系列表现稳定：4 个变体进入 Top 10，国产模型在工具调用能力上已达一线水平
小模型也能调工具：Llama 3.1 8B（仅 8B 参数）得分 0.761，远超部分大模型
Function Calling 是 Agent 的基础：如果一个模型连”调 API”都做不好，就别指望它能当 Agent 干活了

⚠️ 本文数据通过 Claude Code 系统爬取后以文字和表格还原，可能存在误差。有条件的读者建议直接访问官网查看完整排名。官网：gorilla.cs.berkeley.edu/leaderboard（需科学上网）