2026-06-12站内改写1 分钟阅读更新: 2026-06-12

ToolSense：一种用于审计大语言模型中参数化工具知识的诊断框架

研究人员发现，当前用于评估大语言模型工具检索能力的基准测试存在高估问题。为此，他们提出了ToolSense，一个开源的自动诊断框架，可生成三种基准测试来更真实地评估模型对工具的理解。在ToolBench（约4.7万个工具）上的实验揭示了知识-检索分离现象：一些模型在标准基准上表现良好，但在更现实的查询中性能大幅下降，甚至低于嵌入基线。

来源arXiv AI作者: Ashutosh Hathidara, Sai Shruthi Sistla, Sebastian Schreiber, Sahil Bansal

大语言模型（LLM）被部署为智能代理时，常常需要从庞大的工具目录中检索合适的工具。传统的基于嵌入的检索方法依赖紧凑的编码器，可能难以捕捉专业工具的语义信息。参数化工具检索通过将每个工具编码为虚拟令牌并添加到LLM词汇表中，再经过两阶段微调（记忆化阶段和检索SFT阶段），使LLM本身成为检索器。这种方法在标准的ToolBench检索基准上取得了强劲性能。然而，这些基准使用详尽且完全指定的查询，并使用约束解码来限制输出为有效令牌路径，因此无法揭示模型是否真正理解其工具。

为了更真实地评估LLM的工具理解能力，来自SAP的研究人员提出了ToolSense，这是一个基于LLM的开源诊断框架。ToolSense可以接受任意工具目录作为输入，并自动生成三种基准测试：真实检索基准（RRB），包含三个歧义层级的查询；多项选择探测基准（MCQ）；以及问答探测基准（QA）。研究团队将ToolSense应用于拥有约4.7万个工具的ToolBench，并评估了五种参数化模型训练配置。结果揭示了知识-检索分离现象：在RRB查询上，几种配置的性能相比完全指定的ToolBench基准下降了约50至64个百分点，甚至低于嵌入模型基线。此外，尽管某些模型在检索方面表现强劲，但其事实性探测得分接近随机水平，进一步证实了知识-检索分离的存在。

这项研究指出了当前基准测试的局限性，并提供了更严格的评估框架。ToolSense的开源发布将帮助社区更准确地衡量LLM的工具理解能力，从而推动更可靠和实用的代理系统发展。研究人员已将ToolSense框架和ToolBench诊断基准开源在GitHub上，网址为https://github.com/sap/toolsense。